Algunos productos y funciones están en proceso de cambiar de nombre. Las funciones de flujo y de la guía generativa también se migrarán a una sola consola consolidada. Consulta los detalles.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Adaptación de voz

Cuando realizas una solicitud de detección de intent, puedes suministrar phrase_hints de forma opcional para proporcionar sugerencias al reconocedor de voz. Estas sugerencias pueden ayudarte con el reconocimiento en una situación de conversación específica.

Adaptación de voz automática

La función de adaptación de voz automática mejora la precisión del reconocimiento de voz de tu agente mediante el uso automático del estado de la conversación para pasar entidades relevantes y frases de entrenamiento como sugerencias de contexto de voz en todas las solicitudes de detección de intent. Esta función se inhabilita de forma predeterminada.

Habilita o inhabilita la adaptación automática de voz

Para habilitar o inhabilitar la adaptación automática de voz, haz lo siguiente:

Console

Abre la consola de Dialogflow CX.
Elige tu proyecto de GCP.
Selecciona el agente.
Haz clic en Configuración del agente.
Haz clic en la pestaña IVR y voz.
Activa o desactiva Habilitar la adaptación de voz automática.
Haz clic en Guardar.

API

Consulta los métodos get y patch/update para el tipo Agent.

Selecciona un protocolo y una versión para la Referencia del agente:

Protocolo	V3	V3beta1
REST	Recurso del agente	Recurso del agente
RPC	Interfaz del agente	Interfaz del agente
C++	AgentsClient	No disponible
C#	AgentsClient	No disponible
Go	AgentsClient	No disponible
Java	AgentsClient	AgentsClient
Node.js	AgentsClient	AgentsClient
PHP	No disponible	No disponible
Python	AgentsClient	AgentsClient
Ruby	No disponible	No disponible

Diseño del agente para mejorar el reconocimiento de voz

Si habilitas la adaptación automática de voz, puedes compilar tu agente para aprovecharla. En las siguientes secciones, se explica cómo se puede mejorar el reconocimiento de voz con ciertos cambios en las frases de entrenamiento y las entidades del agente.

Frases de entrenamiento

Si defines frases de entrenamiento con una frase como “es 3 de diciembre”, un enunciado del usuario que suene similar se reconoce de manera correcta como “es 3 de diciembre” y no “estrés de diciembre”.

Cuando tienes un parámetro obligatorio que obliga a Dialogflow a recibir solicitudes de relleno de ranuras, la adaptación de voz automática preferirá la entidad que se va a completar.

En todos los casos, la adaptación de voz automática solo restringe el reconocimiento de voz, no la limita. Por ejemplo, aunque Dialogflow le solicite a un usuario un parámetro obligatorio, los usuarios aún podrán activar otros intents, como un intent “hablar con un agente”.

Entidades del sistema

Si defines una frase de entrenamiento que usa la entidad del sistema @sys.number y el usuario final dice “Quiero cien”, este enunciado puede reconocerse como “sien”, “cien” o “100”.

Cuando la adaptación de voz automática está habilitada, Dialogflow usa la entidad @sys.number como pista durante el reconocimiento de voz, y es más probable que el parámetro se extraiga como "100".

Entidades personalizadas

Si defines una entidad personalizada para los nombres de productos o servicios que ofrece tu empresa, y el usuario final menciona estos términos en un enunciado, es más probable que se reconozcan. Una frase de entrenamiento “Me encanta Dialogflow”, en la que “Dialogflow” se anota como la entidad @product, le indicará una adaptación de voz automática a la biografía para “Me encanta Dialogflow”, “Me encanta Cloud Speech” y otras entradas en la entidad @product.
Es muy importante definir sinónimos de entidad limpia cuando se usa Dialogflow para detectar la voz. Imagina que tienes dos entradas de entidad @product: “Dialogflow” y “Dataflow”. Tus sinónimos de “Dialogflow” pueden ser “Dialogflow”, “flujo de diálogo”, “compilador de diálogo”, “Speakoit”, “hablar con él”, “API.ai”, “IA de punto de API”. Estos son sinónimos adecuados, ya que abarcan las variaciones más comunes. No es necesario que agregues “el compilador de flujo de diálogo” porque el “flujo de diálogo” ya lo cubre.

Nota: ¿Por qué es importante? Considera que tienes dos entidades “Dialogflow“ y “Dataflow”, y dos sinónimos son “el compilador de flujos de diálogo” y “Google Cloud Dataflow”. Un usuario final podría decir de forma razonable “Google Cloud Dialogflow”, pero como no hay una palabra clave “Google Cloud Dialogflow”, el reconocimiento de voz probablemente escuche “Google Cloud Dataflow” porque las definiciones de la entidad se restringen para esa frase. Del mismo modo, si alguien dice “el compilador de flujo de datos”, es probable que escuchemos “el compilador de flujos de diálogo”, ya que es la única entidad definida con “compilador”. En su lugar, obtendrás un mejor rendimiento si solo defines las frases clave como se indica en la viñeta anterior. En resumen, ten cuidado de no agregar datos genéricos a las definiciones de entidades, ya que estas son las frases de entrenamiento de intent diseñadas. Una frase de entrenamiento “Google Cloud Dataflow”, en la que “Dataflow” está anotado como la entidad @product que permite la adaptación de voz automática para escuchar “Google Cloud Dataflow” y “Google Cloud Dialogflow” con el mismo peso. Consulta Diseño de agentes para conocer más prácticas recomendadas.

Las declaraciones de usuario con entidades numéricas consecutivas, pero distintas pueden ser ambiguas. Por ejemplo, “Quiero dos dieciséis paquetes” podría significar 2 cantidades de 16 paquetes o 216 cantidades de paquetes. La Adaptación de voz puede ayudar a evitar la ambigüedad de estos casos si configuras las entidades con valores deletreados:
- Define una entidad quantity con entradas:
  zero
  one
  ...
  twenty
- Define una entidad product o size con entradas:
  sixteen pack
  two ounce
  ...
  five liter
- Solo se usan los sinónimos de entidad en la adaptación de voz, por lo que puedes definir una entidad con valor de referencia 1 y sinónimo único one para simplificar tu lógica de entrega.

Entidades de expresión regular

Las entidades de expresión regular pueden activar la adaptación de voz automática para secuencias alfanuméricas y de dígitos, como “ABC123” o “12345”, cuando se configuran y prueban de forma correcta.

Para reconocer estas secuencias por voz, implementa los cuatro requisitos que se indican a continuación:

1. Requisito de entrada de expresión regular

Si bien se puede usar cualquier expresión regular para extraer entidades de las entradas de texto, solo ciertas expresiones le indicarán a la adaptación de voz automática que genere un sesgo para las secuencias alfanuméricas o de dígitos deletreadas cuando se reconoce la voz.

En la entidad de expresión regular, al menos una entrada debe seguir todas estas reglas:

Debe coincidir con algunos caracteres alfanuméricos, por ejemplo: \d, \w, [a-zA-Z0-9]
No debe contener espacios en blanco ni \s, aunque se permiten \s* y \s?
No debe contener grupos de captura ni de no captura ().
No debe intentar coincidir con ningún carácter especial ni signo de puntuación, como los siguientes: ` ~ ! @ # $ % ^ & * ( ) - _ = + , . < > / ? ; ' : " [ ] { } \ |

Esta entrada puede tener conjuntos de caracteres [] y cuantificadores de repetición como *, ?, + y {3,5}.

Consulta los ejemplos.

2. Requisito de definición de parámetros

Marca la entidad de expresión regular como parámetro del formulario requerido para que pueda recopilarse durante el proceso para completar formularios. Esto permite que la adaptación de voz automática establezca un sesgo sólido para el reconocimiento de secuencias en lugar de intentar reconocer una intención y una secuencia al mismo tiempo. De lo contrario, “Where is my package for ABC123” podría no reconocerse como “Where is my package 4ABC123”?

3. Requisito de anotación de frases de entrenamiento

No uses la entidad de expresión regular para una anotación de frase de entrenamiento de intents. Esto garantiza que el parámetro se resuelva como parte del proceso de relleno de formularios.

4. Requisito de prueba

Consulta Cómo probar la adaptación de voz.

Ejemplos

Por ejemplo, una entidad de expresión regular con una sola entrada ([a-zA-Z0-9]\s?){5,9} no activará el reconocedor de la secuencia de voz porque contiene un grupo de captura. Para solucionar este problema, agrega otra entrada para [a-zA-Z0-9]{5,9}. Ahora podrás alejarte del reconocedor de secuencia cuando coincida con “ABC123”, pero la NLU seguirá comparando entradas como “ABC 123” gracias a la regla original que permite los espacios.

Los siguientes ejemplos de expresiones regulares se adaptan a secuencias alfanuméricas:

^[A-Za-z0-9]{1,10}$
WAC\d+
215[2-8]{3}[A-Z]+
[a-zA-Z]\s?[a-zA-Z]\s?[0-9]\s?[0-9]\s?[0-9]\s?[a-zA-Z]\s?[a-zA-Z]

Los siguientes ejemplos de expresiones regulares se adaptan a las secuencias de dígitos:

\d{2,8}
^[0-9]+$
2[0-9]{7}
[2-9]\d{2}[0-8]{3}\d{4}

Solución alternativa de expresión regular

La compatibilidad integrada de la adaptación automática de voz para entidades de regex varía según el idioma. Consulta Tokens de clase Speech para los idiomas admitidos $OOV_CLASS_ALPHANUMERIC_SEQUENCE y $OOV_CLASS_DIGIT_SEQUENCE.

Si tu idioma no aparece en la lista, puedes solucionar esta limitación. Por ejemplo, si deseas que se reconozca con precisión un ID de empleado que tenga tres letras seguidas de tres dígitos, podrías compilar el agente con estos parámetros y entidades:

Define una entidad digit que contenga 10 entradas de entidad (con sinónimos):
0, 0
1, 1
...
9, 9
Define una entidad letter que contenga 26 entradas de entidad (con sinónimos):
A, A
B, B
...
Z, Z
Define una entidad employee-id que contenga una sola entrada de entidad (sin sinónimos):
@letter @letter @letter @digit @digit @digit
Usa @employee-id como parámetro en una frase de entrenamiento.

Adaptación de voz manual

La adaptación manual de voz te permite configurar manualmente frases de adaptación de voz para un flujo o una página. También anula los contextos de voz implícitos generados por la adaptación automática de voz cuando esta última está habilitada.

La configuración de adaptación de voz a nivel de flujo y a nivel de página tiene una relación jerárquica, lo que significa que una página hereda la configuración de adaptación de voz del nivel de flujo de forma predeterminada, y el nivel de página más detallado siempre anula el nivel de flujo si la página tiene un parámetro de configuración personalizado.

En el caso del parámetro de configuración de adaptación del habla, se pueden habilitar de forma independiente el parámetro de configuración a nivel del flujo y el parámetro de configuración a nivel de la página. Si el parámetro de configuración de adaptación a nivel del flujo no está habilitado, puedes elegir Personalizar a nivel de la página para habilitar la adaptación manual del discurso en esa página específica. Del mismo modo, si inhabilitas la adaptación manual del discurso en la configuración a nivel del flujo, no se verán afectadas las páginas del flujo en las que se haya seleccionado Personalizar.

Sin embargo, no se pueden inhabilitar de forma independiente la configuración a nivel del flujo y la configuración a nivel de la página. Si un flujo tiene habilitada la adaptación manual de voz, no puedes inhabilitarla para una página del flujo a través de la opción Personalizar. Por lo tanto, si deseas tener un uso mixto de la adaptación de voz manual y la adaptación de voz automática para las páginas dentro de un flujo, no debes habilitar la adaptación de voz manual a nivel del flujo y solo debes usar la configuración de adaptación a nivel de la página. Puedes consultar la siguiente tabla para comprender qué combinación de configuración de flujo y página debes usar para tu caso de adaptación.

Efecto objetivo	Uso recomendado de los parámetros de configuración de adaptación
Inhabilita la adaptación automática para un flujo	Flujo habilitado sin conjuntos de frases (de forma predeterminada, las páginas dentro del flujo usan la configuración del flujo).
Inhabilita la adaptación automática para una página	El flujo está inhabilitado y la página está habilitada (se eligió Personalizar) sin conjuntos de frases.
Solo usa la adaptación de voz manual para todas las páginas de un flujo.	Se habilitó el flujo. Personaliza las páginas que necesitan usar conjuntos de frases diferentes del flujo.
Uso combinado de la adaptación automática y manual en un flujo	Se inhabilitó el flujo. Personaliza las páginas en las que deseas aplicar la adaptación manual.
Solo usa la adaptación de voz automática para todas las páginas de un flujo.	Se inhabilitó el flujo.

Habilita o inhabilita la adaptación manual de voz

Para habilitar o inhabilitar la adaptación manual de voz a nivel de flujo o página, haz lo siguiente:

Configuración del flujo

Abre la consola de Dialogflow CX.
Elige tu proyecto de GCP.
Desplaza el mouse sobre el flujo en la sección Flujos.
Haz clic en el botón de opciones .
Selecciona Configuración de flujo en el menú desplegable.
Selecciona o anula la selección de la casilla de verificación Habilitar la adaptación de voz manual.
Cómo editar, agregar o borrar conjuntos de frases en la tabla de conjuntos de frases
Haz clic en Guardar.

Configuración de la página

Abre la consola de Dialogflow CX.
Elige tu proyecto de GCP.
Coloca el cursor sobre la página de la sección Páginas.
Haz clic en el botón de opciones .
Selecciona Configuración de la página en el menú desplegable.
La opción Usar el nivel de flujo está seleccionada de forma predeterminada y, cuando se elige, se reutilizarán las frases de adaptación a nivel del flujo para esta página. Puedes elegir Personalizar para configurar frases de adaptación diferentes a la configuración a nivel del flujo. Incluso si la adaptación manual del discurso está inhabilitada a nivel del flujo, puedes habilitar y configurar la adaptación manual del discurso para una página en ese flujo a través de la opción Personalizar.
Edita, agrega o borra un conjunto de frases en la tabla de conjuntos de frases de adaptación
Haz clic en Guardar.

Configuración manual del conjunto de frases para mejorar el reconocimiento de voz

1. Palabras y frases

En un conjunto de frases de adaptación, puedes definir frases de una o varias palabras con referencias opcionales a tokens de clases de voz. Por ejemplo, puedes agregar frases como "excelente tarifa", "el número de seguimiento es $OOV_CLASS_ALPHANUMERIC_SEQUENCE" o "$FULLPHONENUM". Estas frases proporcionadas aumentan la probabilidad de que se transcriban en lugar de otras frases similares fonéticamente. Cuando agregas una frase de varias palabras sin ninguna mejora, el sesgo se aplica tanto a la frase completa como a las partes continuas dentro de la frase. En general, la cantidad de frases debe ser pequeña, y solo debes agregar las frases que el reconocimiento de voz tiene dificultades para identificar correctamente sin la adaptación de voz. Si Speech-to-Text ya puede reconocer una frase correctamente, no es necesario agregarla a la configuración de adaptación del habla. Si ves algunas frases que la función de Speech-to-Text suele reconocer de forma incorrecta en una página o un flujo, puedes agregar las frases correctas a la configuración de adaptación correspondiente.

Ejemplo de corrección de errores de reconocimiento

A continuación, se muestra un ejemplo de cómo puedes usar la adaptación del discurso para corregir problemas de reconocimiento. Supongamos que estás diseñando un agente de compraventa de teléfonos y que el usuario puede decir algo que incluya las frases "vender teléfonos" o "teléfono celular" después de que el agente haga su primera pregunta: "¿En qué puedo ayudarte?". Entonces, ¿cómo podemos usar la adaptación del discurso para mejorar la precisión del reconocimiento en ambas frases?

Si incluyes ambas frases en la configuración de adaptación, es posible que la función de Speech-to-Text siga confundida, ya que suenan similares. Si solo proporcionas una de las dos frases, es posible que Speech-to-Text reconozca erróneamente una frase como la otra. Para mejorar la precisión del reconocimiento de voz en ambas frases, debes proporcionar a Speech-to-Text más pistas de contexto para distinguir cuándo debe escuchar "vender teléfonos" y cuándo debe escuchar "teléfono celular". Por ejemplo, es posible que observes que las personas suelen usar "vender teléfonos" como parte de expresiones como "cómo vender teléfonos", "quiero vender teléfonos" o "¿vendes teléfonos?", mientras que "teléfono celular" se usa en expresiones como "comprar teléfono celular", "factura de teléfono celular" y "servicio de teléfono celular". Si proporcionas estas frases más precisas al modelo en lugar de las frases originales cortas "teléfono celular" y "vender teléfonos", Speech-to-Text aprenderá que es más probable que "vender teléfonos" como frase verbal siga a palabras como "cómo", "quieres" y "¿puedes?", mientras que es más probable que "teléfono celular" como frase nominal siga a palabras como "comprar" o que le sigan palabras como "factura" o "servicio". Por lo tanto, como regla general para configurar frases de adaptación, suele ser mejor proporcionar frases más precisas, como "cómo vender teléfonos" o "¿vendes teléfonos?", en lugar de incluir solo "vender teléfono".

2. Tokens de clase de voz

Además de las palabras en lenguaje natural, también puedes incorporar referencias a tokens de clases de voz en una frase. Los tokens de clase de voz representan conceptos comunes que suelen seguir un formato determinado en la escritura. Por ejemplo, para el número de la dirección en una dirección como "123 Main Street", las personas suelen esperar ver el formato numérico del número de la dirección "123" en una dirección en lugar de su versión escrita completa "ciento veintitrés". Si esperas un formato determinado en los resultados de la transcripción, en especial para las secuencias alfanuméricas, consulta la lista de tokens de clase admitidos para ver qué tokens están disponibles para tu idioma y tu caso de uso.

Si la página ya tiene rutas o parámetros de intents con referencias a entidades del sistema, aquí tienes una tabla de referencia para las asignaciones entre entidades del sistema comunes y tokens de clases de voz:

Entidades del sistema	Tokens de clase de voz
`@sys.date`	`$MONTH $DAY $YEAR`
`@sys.date-time`	`$MONTH $DAY $YEAR`
`@sys.date-period`	`$MONTH $DAY $YEAR`
`@sys.time`	`$TIME`
`@sys.time-period`	`$TIME`
`@sys.age`	`$OPERAND`
`@sys.number`	`$OPERAND`
`@sys.number-integer`	`$OPERAND`
`@sys.cardinal`	`$OPERAND`
`@sys.ordinal`	`$OPERAND`
`@sys.percentage`	`$OPERAND`
`@sys.duration`	`$OPERAND`
`@sys.currency-name`	`$MONEY`
`@sys.unit-currency`	`$MONEY`
`@sys.phone-number`	`$FULLPHONENUM`
`@sys.zip-code`	`$POSTALCODE` o `$OOV_CLASS_POSTALCODE`
`@sys.address`	`$ADDRESSNUM $STREET $POSTALCODE`
`@sys.street-address`	`$ADDRESSNUM $STREET $POSTALCODE`
`@sys.temperature`	`$OOV_CLASS_TEMPERATURE`
`@sys.number-sequence`	`$OOV_CLASS_DIGIT_SEQUENCE`
`@sys.flight-number`	`$OOV_CLASS_ALPHANUMERIC_SEQUENCE`

3. Valor de mejora

Si agregar frases sin el valor de mejora no proporciona un efecto de sesgo lo suficientemente fuerte, puedes usar el valor de mejora para fortalecer aún más el efecto de sesgo de la adaptación de voz.

La mejora aplica un sesgo adicional cuando se establece en valores mayores que 0 y no mayores que 20. Cuando el refuerzo está vacío o es 0, el efecto de sesgo predeterminado ayuda a reconocer toda la frase y las partes continuas dentro de ella. Por ejemplo, una frase sin potenciación "¿Estás abierto para vender teléfonos?" ayuda a reconocer esa frase y también otras similares, como "Yo vendo teléfonos" y "Hola, ¿estás abierto?".

Cuando se aplica un refuerzo positivo, el efecto de sesgo es más fuerte, pero solo se aplica a la frase exacta. Por ejemplo, una frase reforzada "vender teléfonos" ayuda a reconocer "¿puedes vender teléfonos?", pero no "¿vendes teléfonos?".

Por estos motivos, obtendrás los mejores resultados si proporcionas frases con y sin mejora.

Los valores de mejora más altos pueden dar como resultado menos falsos negativos, que son casos en los que la palabra o frase ocurrió en el audio, pero no se reconoció correctamente en Speech-to-Text (subsesgo). Sin embargo, la mejora también puede aumentar la probabilidad de falsos positivos; es decir, casos en los que la palabra o la frase aparecen en la transcripción aunque esto no haya ocurrido en el audio (sobreajuste). Por lo general, debes ajustar tus frases de sesgo para encontrar un buen punto de equilibrio entre los dos problemas de sesgo.

Puedes obtener más información para ajustar el valor de refuerzo de las frases en el documento de Cloud Speech sobre el refuerzo.

Cuándo usar la adaptación de voz automática o manual

En general, si no sabes con certeza si la adaptación de voz mejorará la calidad del reconocimiento de voz de tu agente (no tienes en mente patrones claros de errores de transcripción), te recomendamos que primero pruebes la adaptación de voz automática antes de recurrir a la adaptación de voz manual. Para tomar decisiones más matizadas, considera los siguientes factores para decidir entre la adaptación automática del discurso o la adaptación manual del discurso:

1. Relleno de formularios

La adaptación de voz automática funciona muy bien con el completado de formularios, ya que usa el contexto de la gramática de ABNF para los parámetros del formulario y aplica reglas gramaticales según sus tipos de entidades. Como la adaptación de voz manual aún no admite gramáticas de ABNF, generalmente se prefiere la adaptación de voz automática a la adaptación de voz manual para una página de completado de formularios. Sin embargo, para las páginas con solo parámetros de entidades del sistema y entidades de expresión regular simples que son compatibles con los tokens de clase de voz, también puedes usar la adaptación de voz manual para lograr un efecto de sesgo similar al de la adaptación de voz automática sin necesidad de ajustar las entidades de expresión regular.

2. Complejidad de la transición de página o flujo

En el caso de una página o un flujo simples con algunas rutas de intención, es probable que la adaptación automática de voz genere frases de sesgo representativas y funcione de manera razonable.

Sin embargo, si una página o un flujo tienen una gran cantidad de rutas de intención (en el caso de una página, también considera la cantidad de rutas a nivel del flujo) o si alguna de las intenciones tiene frases de entrenamiento demasiado largas o cortas que no son importantes (por ejemplo, una oración completa o una sola palabra con solo una o dos sílabas), es muy probable que el modelo de adaptación del habla no funcione bien con estas frases. Primero, debes intentar inhabilitar la adaptación de voz para las páginas abiertas con alta complejidad. Para ello, habilita la adaptación de voz manual con conjuntos de frases vacíos (anulación de adaptación vacía). Después de eso, evalúa si hay frases especiales no ambiguas que aún se deben proporcionar a Speech-to-Text para mejorar la calidad del reconocimiento.

Otro síntoma de este problema de complejidad es observar una amplia variedad de problemas de subestimación o sobreestimación cuando se habilita la adaptación automática del habla. Al igual que en el caso anterior, primero debes realizar pruebas con la adaptación del habla inhabilitada para la página específica. Si los comportamientos erróneos persisten después de inhabilitar la adaptación del habla, puedes agregar las frases que deseas corregir a la configuración de adaptación del habla e incluso agregar valores de refuerzo para fortalecer aún más los efectos de la estimación cuando sea necesario.

Cómo probar la adaptación de voz

Cuando pruebes las capacidades de adaptación del habla de tu agente para una frase de entrenamiento o una coincidencia de entidad en particular, no debes pasar directamente a probar la coincidencia con la primera expresión de voz de una conversación. Solo debes usar entradas de voz o de eventos para toda la conversación anterior a la coincidencia que deseas probar. El comportamiento de tu agente cuando se prueba de esta manera será similar al comportamiento en las conversaciones reales de producción.

Limitaciones

Se aplica la siguiente limitación:

La adaptación de voz no está disponible para todos los modelos de voz ni para todas las combinaciones de idiomas. Consulta la página de idiomas admitidos de Cloud Speech para verificar si la "adaptación del modelo" está disponible para tu combinación de modelo de voz y lenguaje.

Actualmente, la adaptación manual del discurso aún no admite clases personalizadas ni gramática ABNF. Puedes habilitar la adaptación automática de voz o usar la solicitud de detección de intención en el tiempo de ejecución para aprovechar estas funciones de adaptación.
El mismo valor de mejora puede tener un rendimiento diferente para distintos modelos y lenguajes de voz, por lo que debes tener cuidado cuando los configures de forma manual para los agentes que usan varios idiomas o modelos de voz. Actualmente, la adaptación de voz manual se aplica a todos los idiomas de un agente, por lo que los agentes multilingües solo deben usar frases independientes del idioma o dividir cada idioma en un agente independiente. Dado que el comportamiento predeterminado de ajuste (no proporcionar mejora o proporcionar una mejora de 0) suele tener un rendimiento razonablemente bueno para todos los idiomas y modelos, no es necesario que configures valores de mejora específicos del idioma, a menos que se requiera un ajuste más fuerte para tu caso de uso de reconocimiento. Puedes obtener más información para ajustar el valor de mejora en esta guía de Cloud Speech-to-Text.

Es un desafío reconocer secuencias de personajes largos. La cantidad de caracteres que se capturan en un solo turno se relaciona directamente con la calidad del audio de entrada. Si seguiste todos los lineamientos de las entidades de expresión regular y probaste usar tokens de clases de voz relevantes en la configuración de adaptación de voz manual, pero aún tienes dificultades para capturar toda la secuencia en un solo turno, puedes considerar algunas alternativas más conversacionales:
- Cuando valides la secuencia en una base de datos, considera hacer una referencia cruzada de otros parámetros recopilados, como las fechas, los nombres o los números de teléfono, a fin de permitir coincidencias incompletas. Por ejemplo, en lugar de pedir a un usuario a su número de pedido, también pídele su número de teléfono. Ahora, cuando tu webhook consulta a tu base de datos por el estado del pedido, primero puede aparecer en el número de teléfono y, luego, mostrar el orden coincidente más cercano para esa cuenta. Esto podría permitir que Dialogflow escuche incorrectamente “ABC” como “AVC” y aún muestra el estado correcto del pedido para el usuario.
- Para secuencias más largas, considera diseñar un flujo que aliente a los usuarios finales a pausarse en el medio para que el bot pueda confirmarse a medida que avanzas.

Clonación de voz

Configuración avanzada de voz