En esta página, se describe cómo obtener etiquetas para diferentes interlocutores en datos de audio transcriptos por Cloud Speech-to-Text.
A veces los datos de audio contienen muestras de conversación de más de una persona. Por ejemplo, el audio de una llamada telefónica generalmente presenta voces de dos o más personas. Una transcripción de la llamada incluye idealmente quién habla en qué momento.
Identificación de interlocutores
Cloud Speech-to-Text puede reconocer a varios interlocutores en el mismo clip de audio. Cuando envías una solicitud de transcripción de audio a Cloud Speech-to-Text, puedes incluir un parámetro que pida a Cloud Speech-to-Text que identifique los diferentes interlocutores en la muestra de audio. Esta característica, denominada identificación de interlocutores, detecta cuando cambia el interlocutor y etiqueta por número las voces individuales detectadas en el audio.
Cuando habilitas la identificación de interlocutores en tu solicitud de transcripción, Cloud Speech-to-Text intenta distinguir las diferentes voces incluidas en la muestra de audio. El resultado de la transcripción etiqueta cada palabra con un número asignado a los interlocutores individuales. Las palabras enunciadas por el mismo interlocutor llevan el mismo número. Un resultado de la transcripción puede incluir números de hasta la cantidad de interlocutores que Cloud Speech-to-Text pueda identificar de forma única en la muestra de audio.
Cuando se utiliza la identificación de interlocutores, Cloud Speech-to-Text produce un conjunto acumulado de todos los resultados proporcionados en la transcripción. Cada resultado incluye las palabras del resultado anterior. Por lo tanto, el arreglo de words en el resultado final proporciona los resultados completos identificados de la transcripción.
Revisa la página Idiomas admitidos a fin de ver si esta función está disponible para tu idioma.
Habilita la identificación de interlocutores en una solicitud
A fin de habilitar la identificación de interlocutores, debes configurar el campo diarization_config en RecognitionFeatures. Debes configurar los valores min_speaker_count y max_speaker_count según la cantidad de interlocutores que esperes en la transcripción.
Cloud STT admite la identificación de interlocutores para todos los métodos de reconocimiento de voz: speech:recognize y transmisión.
Usa un archivo local
En el siguiente fragmento de código, se demuestra cómo habilitar la identificación de interlocutores en una solicitud de transcripción para Cloud Speech-to-Text mediante el uso de un archivo local.
REST
Consulta el extremo de la API de speech:recognize para obtener todos los detalles.
Para realizar un reconocimiento de voz síncrono, haz una solicitud POST y proporciona el cuerpo de la solicitud apropiado. A continuación, se muestra un ejemplo de una solicitud POST con curl. En el ejemplo, se usa Google Cloud CLI para generar un token
de acceso. Para obtener instrucciones sobre cómo instalar gcloud CLI,
consulta la guía de inicio rápido.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v2/projects/{project}/locations/{location}/recognizers/{recognizer}:recognize \ --data '{ "config": { "features": { "diarizationConfig": { "minSpeakerCount": 2, "maxSpeakerCount": 2 }, } }, "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" }' > speaker-diarization.txt
Si la solicitud se completa correctamente, el servidor muestra un código de estado HTTP 200 OK y la respuesta en formato JSON, guardada en un archivo llamado speaker-diarization.txt.
{ "results": [ { "alternatives": [ { "transcript": "hi I'd like to buy a Chromecast and I was wondering whether you could help me with that certainly which color would you like we have blue black and red uh let's go with the black one would you like the new Chromecast Ultra model or the regular Chrome Cast regular Chromecast is fine thank you okay sure we like to ship it regular or Express Express please terrific it's on the way thank you thank you very much bye", "confidence": 0.92142606, "words": [ { "startOffset": "0s", "endOffset": "1.100s", "word": "hi", "speakerLabel": "2" }, { "startOffset": "1.100s", "endOffset": "2s", "word": "I'd", "speakerLabel": "2" }, { "startOffset": "2s", "endOffset": "2s", "word": "like", "speakerLabel": "2" }, { "startOffset": "2s", "endOffset": "2.100s", "word": "to", "speakerLabel": "2" }, ... { "startOffset": "6.500s", "endOffset": "6.900s", "word": "certainly", "speakerLabel": "1" }, { "startOffset": "6.900s", "endOffset": "7.300s", "word": "which", "speakerLabel": "1" }, { "startOffset": "7.300s", "endOffset": "7.500s", "word": "color", "speakerLabel": "1" }, ... ] } ], "languageCode": "en-us" } ] }
Go
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Cloud STT, consulta las bibliotecas cliente de Cloud STT. Si deseas obtener más información, consulta la documentación de referencia de la API de Cloud STT Go.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Python
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Cloud STT, consulta las bibliotecas cliente de Cloud STT. Si deseas obtener más información, consulta la documentación de referencia de la API de Cloud STT Python.
Para autenticarte en Cloud STT, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.