Questa pagina è stata tradotta dall'API Cloud Translation.

Confrontare i modelli di trascrizione

Questa pagina descrive come utilizzare un modello di machine learning specifico per le richieste di trascrizione audio a Speech-to-Text.

Selezionare il modello di trascrizione corretto

Speech-to-Text rileva le parole in un clip audio confrontando l'input con uno dei tanti modelli di machine learning. Ogni modello è stato addestrato analizzando milioni di esempi, in questo caso molte registrazioni audio di persone che parlano.

Speech-to-Text dispone di modelli specializzati addestrati a partire dall'audio per sorgenti specifiche. Questi modelli forniscono risultati migliori se applicati a tipi di dati audio simili a quelli su cui sono stati addestrati.

La tabella seguente mostra i modelli di trascrizione disponibili per l'utilizzo con l'API Speech-to-Text V2.

Nome modello	Descrizione
`chirp_3`	Utilizza l'ultima generazione di modelli generativi multilingue specifici per il riconoscimento vocale automatico (ASR) di Google, progettati per soddisfare le esigenze degli utenti in base al feedback e all'esperienza. Chirp 3 offre maggiore precisione e velocità rispetto ai modelli Chirp precedenti e fornisce la diarizzazione e il rilevamento automatico della lingua.
`chirp_2`	Utilizza il modello vocale di grandi dimensioni universale (USM) basato sulla nostra tecnologia di modelli linguistici di grandi dimensioni (LLM) per lo streaming e il batch, che fornisce trascrizioni e traduzioni in diversi contenuti linguistici e funzionalità multilingue.
`telephony`	Utilizza questo modello per l'audio proveniente da una chiamata audio, in genere registrata con una frequenza di campionamento pari a 8 kHz. Ideale per il servizio clienti, le teleconferenze e le applicazioni kiosk automatiche.

Seleziona un modello per la trascrizione audio

Per trascrivere brevi clip audio (meno di 60 secondi), il metodo più semplice è il riconoscimento sincrono. Elabora l'audio e restituisce il risultato della trascrizione completa in un'unica risposta dopo l'elaborazione di tutto l'audio.

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

# Instantiates a client
client = SpeechClient()

# Reads a file as bytes
with open("resources/audio.wav", "rb") as f:
    audio_content = f.read()

config = cloud_speech.RecognitionConfig(
    auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
    language_codes=["en-US"],
    model="chirp_3",
)

request = cloud_speech.RecognizeRequest(
    recognizer=f"projects/{PROJECT_ID}/locations/global/recognizers/_",
    config=config,
    content=audio_content,
)

# Transcribes the audio into text
response = client.recognize(request=request)

for result in response.results:
    print(f"Transcript: {result.alternatives[0].transcript}")

Per trascrivere file audio più lunghi di 60 secondi o per trascrivere audio in tempo reale, puoi utilizzare uno dei seguenti metodi:

Riconoscimento batch: ideale per trascrivere file audio lunghi (da minuti a ore) archiviati in un bucket Cloud Storage. Si tratta di un'operazione asincrona. Per scoprire di più sul riconoscimento batch, vedi Riconoscimento batch.

Riconoscimento in streaming: ideale per acquisire e trascrivere l'audio in tempo reale, ad esempio da un feed del microfono o da un live streaming. Per scoprire di più sul riconoscimento dello streaming, consulta la pagina Riconoscimento dello streaming.

Passaggi successivi

Scopri come trascrivere l'audio in streaming.
Scopri come trascrivere file audio lunghi.
Scopri come trascrivere file audio corti.
Per ottenere prestazioni e precisione ottimali e altri suggerimenti, consulta la documentazione sulle best practice.

Confrontare i modelli di trascrizione Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Selezionare il modello di trascrizione corretto

Seleziona un modello per la trascrizione audio

Python

Passaggi successivi

Confrontare i modelli di trascrizione