Confrontare i modelli di trascrizione

Questa pagina descrive come utilizzare un modello di machine learning specifico per le richieste di trascrizione audio a Speech-to-Text.

Selezionare il modello di trascrizione corretto

Speech-to-Text rileva le parole in un clip audio confrontando l'input con uno dei tanti modelli di machine learning. Ogni modello è stato addestrato analizzando milioni di esempi, in questo caso molte registrazioni audio di persone che parlano.

Speech-to-Text dispone di modelli specializzati addestrati a partire dall'audio per sorgenti specifiche. Questi modelli forniscono risultati migliori se applicati a tipi di dati audio simili a quelli su cui sono stati addestrati.

La tabella seguente mostra i modelli di trascrizione disponibili per l'utilizzo con l'API Speech-to-Text V2.

Nome modello Descrizione
chirp_3 Utilizza l'ultima generazione di modelli generativi multilingue specifici per il riconoscimento vocale automatico (ASR) di Google, progettati per soddisfare le esigenze degli utenti in base al feedback e all'esperienza. Chirp 3 offre maggiore precisione e velocità rispetto ai modelli Chirp precedenti e fornisce la diarizzazione e il rilevamento automatico della lingua.
chirp_2 Utilizza il modello vocale di grandi dimensioni universale (USM) basato sulla nostra tecnologia di modelli linguistici di grandi dimensioni (LLM) per lo streaming e il batch, che fornisce trascrizioni e traduzioni in diversi contenuti linguistici e funzionalità multilingue.
telephony Utilizza questo modello per l'audio proveniente da una chiamata audio, in genere registrata con una frequenza di campionamento pari a 8 kHz. Ideale per il servizio clienti, le teleconferenze e le applicazioni kiosk automatiche.

Seleziona un modello per la trascrizione audio

Per trascrivere brevi clip audio (meno di 60 secondi), il metodo più semplice è il riconoscimento sincrono. Elabora l'audio e restituisce il risultato della trascrizione completa in un'unica risposta dopo l'elaborazione di tutto l'audio.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

Per trascrivere file audio più lunghi di 60 secondi o per trascrivere audio in tempo reale, puoi utilizzare uno dei seguenti metodi:

  • Riconoscimento batch: ideale per trascrivere file audio lunghi (da minuti a ore) archiviati in un bucket Cloud Storage. Si tratta di un'operazione asincrona. Per scoprire di più sul riconoscimento batch, vedi Riconoscimento batch.
  1. Riconoscimento in streaming: ideale per acquisire e trascrivere l'audio in tempo reale, ad esempio da un feed del microfono o da un live streaming. Per scoprire di più sul riconoscimento dello streaming, consulta la pagina Riconoscimento dello streaming.

Passaggi successivi