Questa pagina mostra come trascrivere un breve file audio in testo utilizzando il riconoscimento vocale sincrono.
Il riconoscimento vocale sincrono restituisce il testo riconosciuto per l'audio breve (meno di 60 secondi). Per elaborare una richiesta di riconoscimento vocale per audio di durata superiore a 60 secondi, utilizza il riconoscimento vocale asincrono.
I contenuti audio possono essere inviati direttamente a Cloud Speech-to-Text da un file locale oppure Cloud Speech-to-Text può elaborare i contenuti audio archiviati in un bucket Cloud Storage. Per i limiti relativi alle richieste di riconoscimento vocale sincrono, consulta la pagina Quote e limiti.
Esegui il riconoscimento vocale sincrono su un file locale
Di seguito è riportato un esempio di esecuzione del riconoscimento vocale sincrono su un file audio locale:
REST
Per informazioni dettagliate, consulta l'endpoint API speech:recognize. Per saperne di più sulla configurazione del corpo della richiesta, consulta la documentazione di riferimento di RecognitionConfig.
I contenuti audio forniti nel corpo della richiesta devono essere codificati in base64.
Per ulteriori informazioni su come codificare in base64
l'audio, vedi Codifica in base64 dei contenuti audio. Per ulteriori informazioni sul campo content, vedi RecognitionAudio.
Prima di utilizzare i dati della richiesta, apporta le sostituzioni seguenti:
- LANGUAGE_CODE: il codice BCP-47 della lingua parlata nel clip audio.
- ENCODING: la codifica dell'audio che vuoi trascrivere.
- SAMPLE_RATE_HERTZ: la frequenza di campionamento in hertz dell'audio che vuoi trascrivere.
- ENABLE_WORD_TIME_OFFSETS: attiva questo campo se vuoi che vengano restituiti gli offset temporali (timestamp) di inizio e fine delle parole.
- INPUT_AUDIO: una stringa codificata in base64 dei dati audio che vuoi trascrivere.
- PROJECT_ID: l'ID alfanumerico del tuo progetto Google Cloud .
Metodo HTTP e URL:
POST https://speech.googleapis.com/v2/speech:recognize
Corpo JSON della richiesta:
{
"config": {
"languageCode": "LANGUAGE_CODE",
"encoding": "ENCODING",
"sampleRateHertz": SAMPLE_RATE_HERTZ,
"enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS
},
"audio": {
"content": "INPUT_AUDIO"
}
}
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98267895
}
]
}
]
}
gcloud
Per informazioni dettagliate, consulta il comando
recognize.
Per eseguire il riconoscimento vocale su un file locale, utilizza Google Cloud CLI, passando il percorso del file locale su cui eseguire il riconoscimento vocale.
gcloud ml speech recognize PATH-TO-LOCAL-FILE --language-code='en-US'
Se la richiesta riesce, il server restituisce una risposta in formato JSON:
{
"results": [
{
"alternatives": [
{
"confidence": 0.9840146,
"transcript": "how old is the Brooklyn Bridge"
}
]
}
]
}Go
Per scoprire come installare e utilizzare la libreria client per Cloud STT, consulta la sezione Librerie client Cloud STT. Per saperne di più, consulta la documentazione di riferimento dell'API Cloud STT Go.
Per eseguire l'autenticazione in Cloud STT, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per Cloud STT, consulta la sezione Librerie client Cloud STT. Per saperne di più, consulta la documentazione di riferimento dell'API Cloud STT Java.
Per eseguire l'autenticazione in Cloud STT, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per Cloud STT, consulta la sezione Librerie client Cloud STT. Per saperne di più, consulta la documentazione di riferimento dell'API Cloud STT Node.js.
Per eseguire l'autenticazione in Cloud STT, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per Cloud STT, consulta la sezione Librerie client Cloud STT. Per saperne di più, consulta la documentazione di riferimento dell'API Cloud STT Python.
Per eseguire l'autenticazione in Cloud STT, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud STT per .NET.
PHP: segui le istruzioni di configurazione di PHP nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud STT per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud STT per Ruby.
Eseguire il riconoscimento vocale sincrono su un file remoto
Per comodità, l'API Cloud Speech-to-Text può eseguire il riconoscimento vocale sincrono direttamente su un file audio archiviato in Cloud Storage, senza la necessità di inviare i contenuti del file audio nel corpo della richiesta.
Ecco un esempio di esecuzione del riconoscimento vocale sincrono su un file che si trova in Cloud Storage:
REST
Per informazioni dettagliate, consulta l'endpoint API speech:recognize. Per saperne di più sulla configurazione del corpo della richiesta, consulta la documentazione di riferimento di RecognitionConfig.
I contenuti audio forniti nel corpo della richiesta devono essere codificati in base64.
Per ulteriori informazioni su come codificare in base64
l'audio, vedi Codifica in base64 dei contenuti audio. Per ulteriori informazioni sul campo content, vedi RecognitionAudio.
Prima di utilizzare i dati della richiesta, apporta le sostituzioni seguenti:
- LANGUAGE_CODE: il codice BCP-47 della lingua parlata nel clip audio.
- ENCODING: la codifica dell'audio che vuoi trascrivere.
- SAMPLE_RATE_HERTZ: frequenza di campionamento in hertz dell'audio che vuoi trascrivere.
- ENABLE_WORD_TIME_OFFSETS: attiva questo campo se vuoi che vengano restituiti gli offset temporali (timestamp) di inizio e fine delle parole.
- STORAGE_BUCKET: un bucket Cloud Storage.
- INPUT_AUDIO: il file di dati audio che vuoi trascrivere.
- PROJECT_ID: l'ID alfanumerico del tuo progetto Google Cloud .
Metodo HTTP e URL:
POST https://speech.googleapis.com/v2/speech:recognize
Corpo JSON della richiesta:
{
"config": {
"languageCode": "LANGUAGE_CODE",
"encoding": "ENCODING",
"sampleRateHertz": SAMPLE_RATE_HERTZ,
"enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS
},
"audio": {
"uri": "gs://STORAGE_BUCKET/INPUT_AUDIO"
}
}
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98267895
}
]
}
]
}
gcloud
Per informazioni dettagliate, consulta il comando
recognize.
Per eseguire il riconoscimento vocale su un file locale, utilizza Google Cloud CLI, passando il percorso del file locale su cui eseguire il riconoscimento vocale.
gcloud ml speech recognize 'gs://cloud-samples-tests/speech/brooklyn.flac' \ --language-code='en-US'
Se la richiesta riesce, il server restituisce una risposta in formato JSON:
{
"results": [
{
"alternatives": [
{
"confidence": 0.9840146,
"transcript": "how old is the Brooklyn Bridge"
}
]
}
]
}Go
Per scoprire come installare e utilizzare la libreria client per Cloud STT, consulta la sezione Librerie client Cloud STT. Per saperne di più, consulta la documentazione di riferimento dell'API Cloud STT Go.
Per eseguire l'autenticazione in Cloud STT, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per Cloud STT, consulta la sezione Librerie client Cloud STT. Per saperne di più, consulta la documentazione di riferimento dell'API Cloud STT Java.
Per eseguire l'autenticazione in Cloud STT, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per Cloud STT, consulta la sezione Librerie client Cloud STT. Per saperne di più, consulta la documentazione di riferimento dell'API Cloud STT Node.js.
Per eseguire l'autenticazione in Cloud STT, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per Cloud STT, consulta la sezione Librerie client Cloud STT. Per saperne di più, consulta la documentazione di riferimento dell'API Cloud STT Python.
Per eseguire l'autenticazione in Cloud STT, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: segui le istruzioni di configurazione di C# nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud STT per .NET.
PHP: segui le istruzioni di configurazione di PHP nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud STT per PHP.
Ruby: segui le istruzioni di configurazione di Ruby nella pagina delle librerie client, poi consulta la documentazione di riferimento di Cloud STT per Ruby.