Questa pagina descrive come utilizzare un modello di machine learning specifico per le richieste di trascrizione audio a Speech-to-Text.
Selezionare il modello di trascrizione corretto
Speech-to-Text rileva le parole in un clip audio confrontando l'input con uno dei tanti modelli di machine learning. Ogni modello è stato addestrato analizzando milioni di esempi, in questo caso molte registrazioni audio di persone che parlano.
Speech-to-Text dispone di modelli specializzati addestrati a partire dall'audio per sorgenti specifiche. Questi modelli forniscono risultati migliori se applicati a tipi di dati audio simili a quelli su cui sono stati addestrati.
La tabella seguente mostra i modelli di trascrizione disponibili per l'utilizzo con l'API Speech-to-Text V2.
Nome modello | Descrizione |
---|---|
chirp_3 |
Utilizza l'ultima generazione di modelli generativi multilingue specifici per il riconoscimento vocale automatico (ASR) di Google, progettati per soddisfare le esigenze degli utenti in base al feedback e all'esperienza. Chirp 3 offre maggiore precisione e velocità rispetto ai modelli Chirp precedenti e fornisce la diarizzazione e il rilevamento automatico della lingua. |
chirp_2 |
Utilizza il modello vocale di grandi dimensioni universale (USM) basato sulla nostra tecnologia di modelli linguistici di grandi dimensioni (LLM) per lo streaming e il batch, che fornisce trascrizioni e traduzioni in diversi contenuti linguistici e funzionalità multilingue. |
telephony |
Utilizza questo modello per l'audio proveniente da una chiamata audio, in genere registrata con una frequenza di campionamento pari a 8 kHz. Ideale per il servizio clienti, le teleconferenze e le applicazioni kiosk automatiche. |
Seleziona un modello per la trascrizione audio
Per trascrivere brevi clip audio (meno di 60 secondi), il metodo più semplice è il riconoscimento sincrono. Elabora l'audio e restituisce il risultato della trascrizione completa in un'unica risposta dopo l'elaborazione di tutto l'audio.
Python
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"
# Instantiates a client
client = SpeechClient()
# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
audio_content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="chirp_3",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
config=config,
content=audio_content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
Per trascrivere file audio più lunghi di 60 secondi o per trascrivere audio in tempo reale, puoi utilizzare uno dei seguenti metodi:
- Riconoscimento batch: ideale per trascrivere file audio lunghi (da minuti a ore) archiviati in un bucket Cloud Storage. Si tratta di un'operazione asincrona. Per scoprire di più sul riconoscimento batch, vedi Riconoscimento batch.
- Riconoscimento in streaming: ideale per acquisire e trascrivere l'audio in tempo reale, ad esempio da un feed del microfono o da un live streaming. Per scoprire di più sul riconoscimento dello streaming, consulta la pagina Riconoscimento dello streaming.
Passaggi successivi
- Scopri come trascrivere l'audio in streaming.
- Scopri come trascrivere file audio lunghi.
- Scopri come trascrivere file audio corti.
- Per ottenere prestazioni e precisione ottimali e altri suggerimenti, consulta la documentazione sulle best practice.