Attivare il filtro per il linguaggio volgare

Questa pagina descrive come utilizzare Cloud Speech-to-Text per rilevare automaticamente le volgarità nei dati audio e censurarle nella trascrizione.

Puoi attivare il filtro per il linguaggio volgare impostando profanityFilter=true in RecognitionFeatures. Se attivata, Cloud Speech-to-Text tenterà di rilevare le parole volgari e restituirà solo la prima lettera seguita da asterischi nella trascrizione (ad esempio, c***). Se questo campo è impostato su false o non è impostato, Cloud Speech-to-Text non tenterà di filtrare le parolacce.

Il seguente esempio mostra come abilitare il filtro volgarità per riconoscere l'audio archiviato in un bucket Cloud Storage.

Python

Per scoprire come installare e utilizzare la libreria client per Cloud STT, consulta la sezione Librerie client Cloud STT. Per saperne di più, consulta la documentazione di riferimento dell'API Cloud STT Python.

Per eseguire l'autenticazione in Cloud STT, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.

from google.cloud import speech
from google.cloud.speech import RecognizeResponse


def sync_recognize_with_profanity_filter_gcs(audio_uri: str) -> RecognizeResponse:
    """Recognizes speech from an audio file in Cloud Storage and filters out profane language.
    Args:
        audio_uri (str): The Cloud Storage URI of the input audio, e.g., gs://[BUCKET]/[FILE]
    Returns:
        cloud_speech.RecognizeResponse: The full response object which includes the transcription results.
    """
    # Define the audio source
    audio = {"uri": audio_uri}

    client = speech.SpeechClient()
    config = speech.RecognitionConfig(
        encoding=speech.RecognitionConfig.AudioEncoding.FLAC,  # Audio format
        sample_rate_hertz=16000,
        language_code="en-US",
        # Enable profanity filter
        profanity_filter=True,
    )

    response = client.recognize(config=config, audio=audio)

    for result in response.results:
        alternative = result.alternatives[0]
        print(f"Transcript: {alternative.transcript}")

    return response.results