En esta página se muestra cómo transcribir un archivo de audio corto a texto mediante el reconocimiento de voz síncrono.
El reconocimiento de voz síncrono devuelve el texto reconocido de audios cortos (de menos de 60 segundos). Para procesar una solicitud de reconocimiento de voz de audio de más de 60 segundos, usa Reconocimiento de voz asíncrono.
El contenido de audio se puede enviar directamente a Cloud Speech-to-Text desde un archivo local, o bien Cloud Speech-to-Text puede procesar el contenido de audio almacenado en un segmento de Cloud Storage. Consulta la página de cuotas y límites para ver los límites de las solicitudes de reconocimiento de voz síncronas.
Realizar el reconocimiento de voz síncrono en un archivo local
A continuación, se muestra un ejemplo de cómo realizar el reconocimiento de voz síncrono en un archivo de audio local:
REST
Consulta todos los detalles en el endpoint de la API speech:recognize. Consulta la documentación de referencia de RecognitionConfig para obtener más información sobre cómo configurar el cuerpo de la solicitud.
El contenido de audio proporcionado en el cuerpo de la solicitud debe estar codificado en Base64.
Para obtener más información sobre cómo codificar audio en Base64, consulta Codificar contenido de audio en Base64. Para obtener más información sobre el campo content, consulta RecognitionAudio.
Antes de usar los datos de la solicitud, haz las siguientes sustituciones:
- LANGUAGE_CODE: el código BCP-47 del idioma que se habla en el clip de audio.
- ENCODING: la codificación del audio que quieras transcribir.
- SAMPLE_RATE_HERTZ: frecuencia de muestreo en hercios del audio que quieres transcribir.
- ENABLE_WORD_TIME_OFFSETS: habilita este campo si quieres que se devuelvan los desplazamientos de la hora de inicio y de finalización de las palabras (marcas de tiempo).
- INPUT_AUDIO: cadena codificada en base64 de los datos de audio que quieras transcribir.
- PROJECT_ID: el ID alfanumérico de tu proyecto de Google Cloud .
Método HTTP y URL:
POST https://speech.googleapis.com/v2/speech:recognize
Cuerpo JSON de la solicitud:
{
"config": {
"languageCode": "LANGUAGE_CODE",
"encoding": "ENCODING",
"sampleRateHertz": SAMPLE_RATE_HERTZ,
"enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS
},
"audio": {
"content": "INPUT_AUDIO"
}
}
Para enviar tu solicitud, despliega una de estas opciones:
Deberías recibir una respuesta JSON similar a la siguiente:
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98267895
}
]
}
]
}
gcloud
Consulta todos los detalles sobre el comando recognize.
Para realizar el reconocimiento de voz en un archivo local, usa la CLI de Google Cloud e indica la ruta del archivo local en el que quieres realizar el reconocimiento de voz.
gcloud ml speech recognize PATH-TO-LOCAL-FILE --language-code='en-US'
Si la solicitud se realiza de forma correcta, el servidor devuelve una respuesta en formato JSON:
{
"results": [
{
"alternatives": [
{
"confidence": 0.9840146,
"transcript": "how old is the Brooklyn Bridge"
}
]
}
]
}Go
Para saber cómo instalar y usar la biblioteca de cliente de Cloud STT, consulta Bibliotecas de cliente de Cloud STT. Para obtener más información, consulta la documentación de referencia de la API Cloud STT Go.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Java
Para saber cómo instalar y usar la biblioteca de cliente de Cloud STT, consulta Bibliotecas de cliente de Cloud STT. Para obtener más información, consulta la documentación de referencia de la API Cloud STT Java.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Para saber cómo instalar y usar la biblioteca de cliente de Cloud STT, consulta Bibliotecas de cliente de Cloud STT. Para obtener más información, consulta la documentación de referencia de la API Cloud STT Node.js.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para saber cómo instalar y usar la biblioteca de cliente de Cloud STT, consulta Bibliotecas de cliente de Cloud STT. Para obtener más información, consulta la documentación de referencia de la API Cloud STT Python.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Idiomas adicionales
C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de STT de Cloud para .NET.
PHP Sigue las instrucciones de configuración de PHP en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud STT para PHP.
Ruby: Sigue las instrucciones de configuración de Ruby en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud STT para Ruby.
Realizar el reconocimiento de voz síncrono en un archivo remoto
Para tu comodidad, la API Cloud Speech-to-Text puede realizar el reconocimiento de voz síncrono directamente en un archivo de audio ubicado en Cloud Storage, sin necesidad de enviar el contenido del archivo de audio en el cuerpo de tu solicitud.
A continuación se muestra un ejemplo de cómo realizar el reconocimiento de voz síncrono en un archivo ubicado en Cloud Storage:
REST
Consulta todos los detalles en el endpoint de la API speech:recognize. Consulta la documentación de referencia de RecognitionConfig para obtener más información sobre cómo configurar el cuerpo de la solicitud.
El contenido de audio proporcionado en el cuerpo de la solicitud debe estar codificado en Base64.
Para obtener más información sobre cómo codificar audio en Base64, consulta Codificar contenido de audio en Base64. Para obtener más información sobre el campo content, consulta RecognitionAudio.
Antes de usar los datos de la solicitud, haz las siguientes sustituciones:
- LANGUAGE_CODE: el código BCP-47 del idioma que se habla en el clip de audio.
- ENCODING: la codificación del audio que quieras transcribir.
- SAMPLE_RATE_HERTZ: frecuencia de muestreo en hercios del audio que quieres transcribir.
- ENABLE_WORD_TIME_OFFSETS: habilita este campo si quieres que se devuelvan los desplazamientos de la hora de inicio y de finalización de las palabras (marcas de tiempo).
- STORAGE_BUCKET: un segmento de Cloud Storage.
- INPUT_AUDIO: el archivo de datos de audio que quieras transcribir.
- PROJECT_ID: el ID alfanumérico de tu proyecto de Google Cloud .
Método HTTP y URL:
POST https://speech.googleapis.com/v2/speech:recognize
Cuerpo JSON de la solicitud:
{
"config": {
"languageCode": "LANGUAGE_CODE",
"encoding": "ENCODING",
"sampleRateHertz": SAMPLE_RATE_HERTZ,
"enableWordTimeOffsets": ENABLE_WORD_TIME_OFFSETS
},
"audio": {
"uri": "gs://STORAGE_BUCKET/INPUT_AUDIO"
}
}
Para enviar tu solicitud, despliega una de estas opciones:
Deberías recibir una respuesta JSON similar a la siguiente:
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98267895
}
]
}
]
}
gcloud
Consulta todos los detalles sobre el comando recognize.
Para realizar el reconocimiento de voz en un archivo local, usa la CLI de Google Cloud y proporciona la ruta del archivo local en el que quieres realizar el reconocimiento de voz.
gcloud ml speech recognize 'gs://cloud-samples-tests/speech/brooklyn.flac' \ --language-code='en-US'
Si la solicitud se realiza de forma correcta, el servidor devuelve una respuesta en formato JSON:
{
"results": [
{
"alternatives": [
{
"confidence": 0.9840146,
"transcript": "how old is the Brooklyn Bridge"
}
]
}
]
}Go
Para saber cómo instalar y usar la biblioteca de cliente de Cloud STT, consulta Bibliotecas de cliente de Cloud STT. Para obtener más información, consulta la documentación de referencia de la API Cloud STT Go.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Java
Para saber cómo instalar y usar la biblioteca de cliente de Cloud STT, consulta Bibliotecas de cliente de Cloud STT. Para obtener más información, consulta la documentación de referencia de la API Cloud STT Java.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Node.js
Para saber cómo instalar y usar la biblioteca de cliente de Cloud STT, consulta Bibliotecas de cliente de Cloud STT. Para obtener más información, consulta la documentación de referencia de la API Cloud STT Node.js.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Python
Para saber cómo instalar y usar la biblioteca de cliente de Cloud STT, consulta Bibliotecas de cliente de Cloud STT. Para obtener más información, consulta la documentación de referencia de la API Cloud STT Python.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Idiomas adicionales
C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de STT de Cloud para .NET.
PHP Sigue las instrucciones de configuración de PHP en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud STT para PHP.
Ruby: Sigue las instrucciones de configuración de Ruby en la página de bibliotecas de cliente y, a continuación, consulta la documentación de referencia de Cloud STT para Ruby.