La transcripción de voz te permite convertir tus datos de audio de transmisión en texto transcrito en tiempo real. Agent Assist hace sugerencias basadas en texto, por lo que los datos de audio se deben convertir antes de que se puedan usar. También puedes usar audio de transmisión transcrito con Customer Experience Insights para recopilar datos en tiempo real sobre las conversaciones de los agentes (por ejemplo, el modelado de temas).
Existen dos formas de transcribir audio de transmisión para usarlo con Agent Assist: con la función SIPREC o con llamadas gRPC con datos de audio como carga útil. En esta página, se describe el proceso de transcripción de datos de audio de transmisión con llamadas gRPC.
La transcripción de voz funciona con el reconocimiento de voz de transmisión de Speech-to-Text streaming speech recognition. Speech-to-Text ofrece varios modelos de reconocimiento, estándar y mejorados. Agent Assist no restringe los modelos que puedes usar con la transcripción de voz, pero esta se admite en el nivel de GA solo cuando se usa con el modelo de telefonía o Chirp 3. Para una calidad de transcripción óptima, se recomienda el modelo Chirp 3, sujeto a la disponibilidad regional.
Requisitos previos
- Crea un proyecto en Google Cloud.
- Habilita la API de Dialogflow.
- Comunícate con tu representante de Google para asegurarte de que tu cuenta tenga acceso a los modelos mejorados de Speech-to-Text.
Crea un perfil de conversación
Para crear un perfil de conversación, usa
la
consola de Agent Assist o llama directamente al método create en el
ConversationProfile
recurso.
Para la transcripción de voz, te recomendamos que configures
ConversationProfile.stt_config como el InputAudioConfig predeterminado cuando envíes
datos de audio en una conversación.

Obtén transcripciones en el tiempo de ejecución de la conversación
Para obtener transcripciones en el tiempo de ejecución de la conversación, debes crear participantes para la conversación y enviar datos de audio para cada uno de ellos.
Crea participantes
Existen tres tipos de
participante.
Consulta la documentación
de referencia
para obtener más detalles sobre sus funciones. Llama al método create en el participant y especifica el role. Solo un participante END_USER o HUMAN_AGENT puede llamar a StreamingAnalyzeContent, que es necesario para obtener una transcripción.
Envía datos de audio y obtén una transcripción
Puedes usar
StreamingAnalyzeContent
para enviar el audio de un participante a Google y obtener la transcripción con los
siguientes parámetros:
La primera solicitud en la transmisión debe ser
InputAudioConfig. (Los campos configurados aquí anulan la configuración correspondiente enConversationProfile.stt_config). No envíes ninguna entrada de audio hasta la segunda solicitud.audioEncodingdebe establecerse enAUDIO_ENCODING_LINEAR_16oAUDIO_ENCODING_MULAW.model: Es el modelo de Speech-to-Text que quieres usar para transcribir tu audio. Establece este campo enchirp_3. La variante no afecta la calidad de la transcripción, por lo que puedes dejar Variante del modelo de voz sin especificar o elegir Usar la mejor disponible.singleUtterancedebe establecerse enfalsepara obtener la mejor calidad de transcripción. No debes esperarEND_OF_SINGLE_UTTERANCEsisingleUtteranceesfalse, pero puedes depender deisFinal==truedentro deStreamingAnalyzeContentResponse.recognition_resultpara cerrar la transmisión a la mitad.- Parámetros adicionales opcionales: Los siguientes parámetros son
opcionales. Para obtener acceso a estos parámetros, comunícate con tu representante de Google.
languageCode:language_codedel audio. El valor predeterminado esen-US.alternativeLanguageCodes: Esta función solo está lista en el nivel de GA para el modelo Chirp 3. Idiomas adicionales que se pueden detectar en el audio. Agent Assist usa el campolanguage_codepara detectar automáticamente el idioma al comienzo del audio y lo establece como predeterminado en todos los turnos de conversación siguientes. El campoalternativeLanguageCodeste permite especificar más opciones para que Agent Assist elija.phraseSets: El nombre del recurso Speech-to-Text model adaptationphraseSet.- Para configurar la adaptación del modelo Chirp 3, agrega frases intercaladas separadas por líneas nuevas, sin comas.
- Para usar la adaptación de modelos con otros modelos como
telephonypara la transcripción de voz, primero debes crear elphraseSetcon la API de Speech-to-Text y especificar el nombre del recurso aquí.
Después de enviar la segunda solicitud con la carga útil de audio, deberías comenzar a recibir algunas
StreamingAnalyzeContentResponsesde la transmisión.- Puedes cerrar la transmisión a la mitad (o dejar de enviar en algunos idiomas como Python) cuando veas
is_finalestablecido entrueenStreamingAnalyzeContentResponse.recognition_result. - Después de cerrar la transmisión a la mitad, el servidor enviará la respuesta que contiene la transcripción final, junto con posibles sugerencias de Dialogflow o Agent Assist.
- Puedes cerrar la transmisión a la mitad (o dejar de enviar en algunos idiomas como Python) cuando veas
Puedes encontrar la transcripción final en las siguientes ubicaciones:
StreamingAnalyzeContentResponse.message.content.- Si habilitas las notificaciones de Pub/Sub, también puedes ver la transcripción en Pub/Sub.
Inicia una transmisión nueva después de que se cierre la anterior.
- Reenvío de audio: Los datos de audio generados después del último
speech_end_offsetde la respuesta conis_final=truea la nueva hora de inicio de la transmisión deben volver a enviarse aStreamingAnalyzeContentpara obtener la mejor calidad de transcripción.
- Reenvío de audio: Los datos de audio generados después del último
En el siguiente diagrama, se ilustra cómo funciona la transmisión.

Muestra de código de la solicitud de reconocimiento de transmisión
En la siguiente muestra de código, se ilustra cómo enviar una solicitud de transcripción de transmisión.
Python
Para autenticarte en Agent Assist, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Sigue estos pasos para ver los archivos de Python para conversation_management y participant_management.
Navega al repositorio de GitHub para documentos de Python.
Haz clic en Ir al archivo y, luego, ingresa el nombre del archivo:
conversation_managementoparticipant_management.Haz clic en Intro.
Prácticas recomendadas
La hora de envío del mensaje es cuando comienza una expresión. Usa la hora de envío del mensaje para determinar el orden en que tu centro de contacto muestra o analiza los mensajes de voz messages.