Trascrivere la voce in testo utilizzando l'API
Questa pagina mostra come inviare una richiesta di riconoscimento vocale a
Cloud Speech-to-Text utilizzando l'interfaccia REST
e il comando curl.
Cloud Speech-to-Text consente di integrare facilmente le tecnologie di riconoscimento vocale di Google nelle applicazioni degli sviluppatori. Puoi inviare dati audio all'API Cloud Speech-to-Text, che restituisce una trascrizione di testo del file audio. Per ulteriori informazioni su il servizio, consulta Nozioni di base di Cloud STT.
Prima di iniziare
Prima di poter inviare una richiesta all'API Cloud Speech-to-Text, devi aver completato le azioni seguenti. Per informazioni dettagliate, consulta la pagina Prima di iniziare.
- Abilita Cloud Speech-to-Text in un Google Cloud progetto.
- Assicurati che la fatturazione sia abilitata per Cloud Speech-to-Text.
- Verifica di disporre delle autorizzazioni necessarie per completare questa guida. Se hai creato un nuovo progetto per questa guida, allora disponi già delle autorizzazioni necessarie.
-
Installa Google Cloud CLI. Dopo l'installazione, inizializza Google Cloud CLI eseguendo il comando seguente:
gcloud initSe utilizzi un provider di identità (IdP) esterno, devi prima accedere a gcloud CLI con la tua identità federata.
- (Facoltativo) Crea un nuovo bucket Google Cloud Storage per archiviare i dati audio.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per trascrivere la voce in testo, chiedi all'amministratore di concederti il ruolo IAM Consumer di utilizzo del servizio (roles/serviceusage.serviceUsageConsumer) nel tuo progetto.
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Esecuzione di una richiesta di trascrizione audio
Ora puoi utilizzare Cloud STT per trascrivere un file audio in testo. Utilizza il seguente esempio di codice per inviare una
recognize richiesta REST all'API Cloud Speech-to-Text.
-
Crea un file di richiesta JSON con il testo seguente, poi salvalo come file di testo normale
sync-request.json:{ "config": { "encoding":"FLAC", "sampleRateHertz": 16000, "languageCode": "en-US", "enableWordTimeOffsets": false }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }Questo snippet JSON indica che il file audio ha un formato di codifica FLAC, una frequenza di campionamento di 16000 Hz e che il file audio è archiviato in Google Cloud Storage all'URI specificato. Il file audio è accessibile pubblicamente, quindi non hai bisogno di credenziali di autenticazione per accedervi.
-
Utilizza
curlper effettuare unaspeech:recognizerichiesta, passandogli il nome del file della richiesta JSON che hai configurato nel passaggio 1:Il comando
curldi esempio utilizza il comandogcloud auth print-access-tokenper ottenere un token di autenticazione.curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ https://speech.googleapis.com/v1/speech:recognize \ -d @sync-request.jsonTieni presente che per passare un nome file a
curldevi utilizzare l'opzione-d(per "dati") e anteporre il nome file con un segno@. Questo file deve trovarsi nella stessa directory in cui esegui ilcurlcomando.Dovresti visualizzare una risposta simile alla seguente:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
Complimenti! Hai inviato la tua prima richiesta a Cloud STT.
Se ricevi un errore o una risposta vuota da Cloud STT, consulta i passaggi per la risoluzione dei problemi e la mitigazione degli errori.
Libera spazio
Per evitare che al tuo Google Cloud account vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
- Utilizzaper eliminare il progetto se non ti serve. Google Cloud console
Passaggi successivi
- Esercitati a trascrivere file audio brevi.
- Scopri come raggruppare i file audio lunghi per il riconoscimento vocale.
- Scopri come trascrivere l'audio in streaming, ad esempio da un microfono.
- Inizia a utilizzare Cloud STT nella lingua di tua scelta utilizzando una libreria client di Cloud STT.
- Consulta le applicazioni di esempio.
- Per prestazioni, accuratezza e altri suggerimenti ottimali, consulta la documentazione sulle best practice.