Questo documento contiene suggerimenti su come fornire dati vocali all'API Speech-to-Text. Queste linee guida sono pensate per garantire maggiore efficienza e precisione, nonché tempi di risposta ragionevoli da parte del servizio. L'utilizzo dell'API Speech-to-Text funziona meglio quando i dati inviati al servizio rientrano nei parametri descritti in questo documento.
Se segui queste linee guida e non ottieni i risultati che ti aspetti dall'API, consulta Risoluzione dei problemi e assistenza.
| Per risultati ottimali… | Se possibile, evita di... |
|---|---|
| Acquisire audio con una frequenza di campionamento pari o superiore a 16.000 Hz. | Tassi di campionamento più bassi possono ridurre la precisione. Tuttavia, evita il ricampionamento. Ad esempio, in telefonia la frequenza nativa è comunemente 8000 Hz, che è la frequenza che deve essere inviata al servizio. |
Utilizza un codec lossless per registrare e trasmettere l'audio. È consigliabile utilizzare FLAC o LINEAR16. |
L'utilizzo di codec mp3, mp4, m4a, mu-law, a-law o altri codec con perdita durante la registrazione o la trasmissione può ridurre l'accuratezza. Se l'audio è già in una codifica non supportata dall'API, esegui la transcodifica in FLAC o LINEAR16 lossless. Se la tua applicazione deve utilizzare un codec con perdita per risparmiare larghezza di banda, ti consigliamo i codec AMR_WB o OGG_OPUS, in questo ordine di preferenza. |
| Il sistema di riconoscimento è progettato per ignorare le voci e i rumori di fondo senza ulteriore cancellazione del rumore. Tuttavia, per risultati ottimali, posiziona il microfono il più vicino possibile all'utente, soprattutto in presenza di rumore di fondo. | Rumore di fondo ed echi eccessivi possono ridurre la precisione, soprattutto se viene utilizzato anche un codec con perdita. |
| Se acquisisci l'audio di più persone e ognuna viene registrata su un canale separato, invia ogni canale separatamente per ottenere i migliori risultati di riconoscimento. Tuttavia, se tutti gli oratori sono mixati in una singola registrazione del canale, invia la registrazione così com'è. | Più persone che parlano contemporaneamente o a volumi diversi potrebbero essere interpretate come rumore di fondo e ignorate. |
| Utilizza suggerimenti di parole e frasi per aggiungere nomi e termini al vocabolario e per aumentare l'accuratezza di parole e frasi specifiche. | Il sistema di riconoscimento ha un vocabolario molto ampio, ma i termini e i nomi propri che non fanno parte del vocabolario non verranno riconosciuti. |
Frequenza di campionamento
Se possibile, imposta la frequenza di campionamento della sorgente audio su 16000 Hz.
Per i codec senza intestazione, utilizza l'impostazione explicit_decoding_config in RecognitionConfig per impostare sample_rate_hertz in modo che corrisponda alla frequenza di campionamento nativa della sorgente audio (anziché al ricampionamento).
Per i codec con un'intestazione, utilizza l'impostazione auto_decoding_config in RecognitionConfig per scegliere automaticamente la frequenza di campionamento corretta.
Dimensioni del telaio
Il riconoscimento dello streaming riconosce l'audio live mentre viene acquisito da un microfono
o da un'altra sorgente audio. Il flusso audio viene suddiviso in frame e inviato in
messaggi StreamingRecognizeRequest consecutivi. È accettata qualsiasi dimensione del frame.
I frame più grandi sono più efficienti, ma aumentano la latenza. È consigliabile una dimensione del frame di 100 millisecondi
come buon compromesso tra latenza ed efficienza.
Pre-elaborazione audio
È consigliabile fornire un audio il più pulito possibile utilizzando un microfono di buona qualità e ben posizionato. Tuttavia, l'applicazione dell'elaborazione del segnale di riduzione del rumore all'audio prima dell'invio al servizio in genere riduce l'accuratezza del riconoscimento. Il servizio è progettato per gestire l'audio con rumore.
Per ottenere risultati ottimali:
- Posiziona il microfono il più vicino possibile alla persona che sta parlando, soprattutto in presenza di rumore di fondo.
- Evita il clipping audio.
- Non utilizzare il controllo automatico del guadagno (AGC).
- Tutta l'elaborazione della riduzione del rumore deve essere disattivata.
- Ascolta un esempio audio. Deve essere chiaro, senza distorsioni o rumori imprevisti.
Richiedi configurazione
Assicurati di descrivere con precisione i dati audio inviati con la richiesta
all'API Speech-to-Text. Se ti assicuri che la
RecognitionConfig
della tua richiesta descriva correttamente sampleRateHertz e encoding e che
utilizzi un
Recognizer
con language_codes e model corretti, otterrai la trascrizione più accurata
e la fatturazione più precisa per la tua richiesta.
Passaggi successivi
- Utilizza le librerie client per trascrivere l'audio utilizzando il tuo linguaggio di programmazione preferito.
- Scopri come trascrivere file audio corti.
- Scopri come trascrivere l'audio in streaming.
- Scopri come trascrivere file audio lunghi.