En esta página, se describe cómo solicitar un modelo de reconocimiento de voz mejorado cuando envías una solicitud de transcripción a Cloud Speech-to-Text.
Hay dos modelos mejorados: llamada telefónica y video. Estos modelos se optimizaron para transcribir con mayor exactitud los datos de audio de estas fuentes específicas. Consulta la página de idiomas admitidos para ver si los modelos mejorados están disponibles en tu idioma.
Google crea y optimiza modelos mejorados en función de los datos recopilados a través del registro de datos. Si bien no es necesario habilitar el registro de datos para usar modelos mejorados, si habilitas esta opción, puedes ayudar a Google a mejorar estos modelos y también disfrutar de un descuento en tu uso.
Para usar los modelos de reconocimiento mejorado, establece los siguientes campos en RecognitionConfig:
- Establece
useEnhancedentrue. - Pasa la string
phone_callovideoen el campomodel.
Cloud STT admite modelos mejorados para todos los métodos de reconocimiento de voz: speech:recognize
speech:longrunningrecognize y transmisión.
En las siguientes muestras de código, se explica cómo solicitar el uso de un modelo mejorado para una solicitud de transcripción.
Protocolo
Consulta el extremo de la API de speech:recognize para obtener todos los detalles.
Para realizar un reconocimiento de voz síncrono, haz una solicitud POST y proporciona el cuerpo de la solicitud apropiado. A continuación, se muestra un ejemplo de una solicitud POST con curl. En el ejemplo, se usa Google Cloud CLI para generar un token
de acceso. Para obtener instrucciones sobre cómo instalar gcloud CLI,
consulta la guía de inicio rápido.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "enableWordTimeOffsets": false, "enableAutomaticPunctuation": true, "model": "phone_call", "useEnhanced": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }'
Consulta la documentación de referencia de RecognitionConfig para obtener más información sobre la configuración del cuerpo de la solicitud.
Si la solicitud se realiza correctamente, el servidor muestra un código de estado HTTP 200 OK y la respuesta en formato JSON:
{
"results": [
{
"alternatives": [
{
"transcript": "Hi, I'd like to buy a Chromecast. I was wondering whether you could help me with that.",
"confidence": 0.8930228
}
],
"resultEndTime": "5.640s"
},
{
"alternatives": [
{
"transcript": " Certainly, which color would you like? We are blue black and red.",
"confidence": 0.9101991
}
],
"resultEndTime": "10.220s"
},
{
"alternatives": [
{
"transcript": " Let's go with the black one.",
"confidence": 0.8818244
}
],
"resultEndTime": "13.870s"
},
{
"alternatives": [
{
"transcript": " Would you like the new Chromecast Ultra model or the regular Chromecast?",
"confidence": 0.94733626
}
],
"resultEndTime": "18.460s"
},
{
"alternatives": [
{
"transcript": " Regular Chromecast is fine. Thank you. Okay. Sure. Would you like to ship it regular or Express?",
"confidence": 0.9519095
}
],
"resultEndTime": "25.930s"
},
{
"alternatives": [
{
"transcript": " Express, please.",
"confidence": 0.9101229
}
],
"resultEndTime": "28.260s"
},
{
"alternatives": [
{
"transcript": " Terrific. It's on the way. Thank you. Thank you very much. Bye.",
"confidence": 0.9321616
}
],
"resultEndTime": "34.150s"
}
]
}
Go
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Cloud STT, consulta las bibliotecas cliente de Cloud STT. Si deseas obtener más información, consulta la documentación de referencia de la API de Cloud STT Go.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Python
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Cloud STT, consulta las bibliotecas cliente de Cloud STT. Si deseas obtener más información, consulta la documentación de referencia de la API de Cloud STT Python.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Java
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Cloud STT, consulta las bibliotecas cliente de Cloud STT. Si deseas obtener más información, consulta la documentación de referencia de la API de Cloud STT Java.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Node.js
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Cloud STT, consulta las bibliotecas cliente de Cloud STT. Si deseas obtener más información, consulta la documentación de referencia de la API de Cloud STT Node.js.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Idiomas adicionales
C#: Sigue las instrucciones de configuración de C# en la página de bibliotecas cliente y, luego, visita la documentación de referencia de Cloud STT para .NET.
PHP: Sigue las instrucciones de configuración de PHP en la página de bibliotecas cliente y, luego, visita la documentación de referencia de Cloud STT para PHP.
Ruby: Sigue las instrucciones de configuración de Ruby en la página de bibliotecas cliente y, luego, visita la documentación de referencia de Cloud STT para Ruby.
¿Qué sigue?
Revisa cómo hacer solicitudes de transcripción síncronas.