En esta página, se describe cómo solicitar un modelo de reconocimiento de voz mejorado cuando envías una solicitud de transcripción a Cloud Speech-to-Text.
Existen dos modelos mejorados: el de video y el de llamada telefónica. Estos modelos se optimizaron para transcribir con mayor exactitud los datos de audio de estas fuentes específicas. Consulta la página de idiomas admitidos si quieres ver si los modelos mejorados están disponibles para tu idioma.
Google crea y optimiza modelos mejorados en función de los datos recopilados a través del registro de datos. No necesitas habilitar el registro de datos para usar los modelos mejorados. Sin embargo, habilitar esta opción ayuda a Google a mejorar los modelos y también te da un descuento en tu uso.
Para usar los modelos de reconocimiento mejorado, establece los siguientes campos en RecognitionConfig:
- Establece
useEnhancedentrue. - Pasa la cadena
phone_callovideoen el campomodel.
Cloud STT admite modelos mejorados para todos los métodos de reconocimiento de voz: speech:recognize, speech:longrunningrecognize y transmisión.
En las siguientes muestras de código, se explica cómo solicitar el uso de un modelo mejorado para una solicitud de transcripción.
Protocolo
Consulta el extremo de API de speech:recognize para obtener todos los detalles.
Para realizar un reconocimiento de voz síncrono, haz una solicitud POST y proporciona el
cuerpo de la solicitud apropiado. A continuación, se muestra un ejemplo de una solicitud POST con
curl. En el ejemplo, se usa la Google Cloud CLI para generar un token de acceso. Si deseas obtener instrucciones para instalar gcloud CLI,
consulta la guía de inicio rápido.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "enableWordTimeOffsets": false, "enableAutomaticPunctuation": true, "model": "phone_call", "useEnhanced": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }'
Consulta la documentación de referencia de RecognitionConfig para obtener más información
sobre la configuración del cuerpo de la solicitud.
Si la solicitud es exitosa, el servidor devuelve un código de estado HTTP 200 OK y la respuesta en formato JSON:
{
"results": [
{
"alternatives": [
{
"transcript": "Hi, I'd like to buy a Chromecast. I was wondering whether you could help me with that.",
"confidence": 0.8930228
}
],
"resultEndTime": "5.640s"
},
{
"alternatives": [
{
"transcript": " Certainly, which color would you like? We are blue black and red.",
"confidence": 0.9101991
}
],
"resultEndTime": "10.220s"
},
{
"alternatives": [
{
"transcript": " Let's go with the black one.",
"confidence": 0.8818244
}
],
"resultEndTime": "13.870s"
},
{
"alternatives": [
{
"transcript": " Would you like the new Chromecast Ultra model or the regular Chromecast?",
"confidence": 0.94733626
}
],
"resultEndTime": "18.460s"
},
{
"alternatives": [
{
"transcript": " Regular Chromecast is fine. Thank you. Okay. Sure. Would you like to ship it regular or Express?",
"confidence": 0.9519095
}
],
"resultEndTime": "25.930s"
},
{
"alternatives": [
{
"transcript": " Express, please.",
"confidence": 0.9101229
}
],
"resultEndTime": "28.260s"
},
{
"alternatives": [
{
"transcript": " Terrific. It's on the way. Thank you. Thank you very much. Bye.",
"confidence": 0.9321616
}
],
"resultEndTime": "34.150s"
}
]
}
Go
Si deseas obtener información para instalar y usar la biblioteca cliente de Cloud STT, consulta las bibliotecas cliente de Cloud STT. Para obtener más información, consulta la documentación de referencia de la API de Cloud STT para Go.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Python
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Cloud STT, consulta las bibliotecas cliente de Cloud STT. Para obtener más información, consulta la documentación de referencia de la API de Cloud STT para Python.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Java
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Cloud STT, consulta las bibliotecas cliente de Cloud STT. Para obtener más información, consulta la documentación de referencia de la API de Cloud STT para Java.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Node.js
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Cloud STT, consulta las bibliotecas cliente de Cloud STT. Para obtener más información, consulta la documentación de referencia de la API de Cloud STT para Node.js.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Lenguajes adicionales
C#: Sigue las instrucciones de configuración de C# de la página de bibliotecas cliente y, luego, consulta la documentación de referencia de Cloud STT para .NET.
PHP: Sigue las instrucciones de configuración de PHP de la página de bibliotecas cliente y, luego, consulta la documentación de referencia de Cloud STT para PHP.
Ruby: Sigue las instrucciones de configuración de Ruby de la página de bibliotecas cliente y, luego, consulta la documentación de referencia de Cloud STT para Ruby.
¿Qué sigue?
Revisa cómo hacer solicitudes de transcripción síncronas.