Evaluación

La evaluación es una herramienta fundamental para probar el rendimiento de tu agente y garantizar que se comporte según lo esperado en situaciones específicas. Te permite automatizar las pruebas, detectar regresiones después de realizar cambios y medir la calidad de las respuestas de tu agente para mejorarla.

Para comenzar, haz clic en el botón Evaluar en la parte superior del creador de agentes.

Conceptos de evaluación

Caso de prueba: Cada caso de prueba es una situación de prueba o instrucción específica y autónoma diseñada para evaluar el rendimiento del agente. Puedes crear dos tipos diferentes de casos de prueba:

Situación: Una función impulsada por IA para iniciar tus pruebas y garantizar una cobertura de pruebas integral. Describes el objetivo de un usuario, y el sistema simula automáticamente al usuario y genera conversaciones para probar la capacidad del agente de manejar la situación de manera sólida. Los diálogos son una forma útil de experimentar y ayudar a definir las conversaciones ideales.
Golden: Es ideal para las pruebas de regresión. Proporcionas una ruta de conversación específica "ideal", y la evaluación verifica si el comportamiento del agente coincide con esta ruta ideal, incluidas las llamadas a herramientas.

Ejecución: Una ejecución de evaluación representa una ejecución única y completa de un conjunto de casos de prueba de referencia y de situaciones en relación con el rendimiento del agente que estás probando. Cada ejecución puede incluir uno o más casos de prueba.

Resultado: Un resultado de caso de prueba hace referencia a una sola ejecución de un caso de prueba específico en una sola ejecución. Si un caso de prueba se ejecuta varias veces durante una sola ejecución de evaluación (por ejemplo, para verificar la coherencia, la inestabilidad, etcétera), cada ejecución individual es un resultado individual. Los resultados se muestran como íconos rectangulares en columnas en cada fila de caso de prueba, con una X roja si la ejecución falló y una marca de verificación verde si se aprobó.

Etiquetas: Los casos de prueba se pueden agrupar con etiquetas para facilitar su administración.

Crea casos de prueba

Para crear casos de prueba y acceder a ellos para tu agente, haz clic en el botón Evaluar en la parte superior de Agent Builder. Puedes crear y administrar casos de prueba basados en situaciones o modelos.

Situación

Los casos de prueba basados en situaciones usan IA para generar automáticamente una variedad de conversaciones basadas en un objetivo de alto nivel del usuario que definas. Con estos casos de prueba, en lugar de proporcionar conversaciones golden específicas, seleccionas situaciones generadas o describes situaciones específicas que se deben probar. Esta es una herramienta poderosa que te ayuda a explorar casos extremos y probar la solidez de tu agente sin tener que escribir manualmente cada ruta de conversación posible.

Una vez que estos casos de uso funcionen bien, podrás guardarlos como conversaciones de referencia.

Para crear una situación, sigue estos pasos:

Haz clic en Crear situación. Se te sugieren varias situaciones.
Puedes generar situaciones en función de las selecciones o crear una situación nueva desde cero.

Cuando veas la lista de situaciones, podrás hacer clic en cada una para ver sus detalles y la lista de conversaciones.

Para guardar un caso como conversación de referencia, sigue estos pasos:

Selecciona la situación.
Haz clic en el botón de menú en la esquina superior derecha.
Selecciona Guardar como conversación de referencia.

Objetivo del usuario en la situación

Cada situación tiene un objetivo del usuario, que describe los objetivos del usuario final cuando usa la aplicación del agente. Por ejemplo:

Securely book a specific room at a chosen hotel and receive a confirmation.

En función de tu objetivo del usuario, CX Agent Studio genera automáticamente conversaciones que se usan para la evaluación.

Variables de situación

Cuando definas una situación, puedes proporcionar variables que se deben usar para la situación.

Expectativas de la situación

Para realizar una evaluación, debes definir expectativas para el caso de prueba.

Las expectativas pueden ser de uno de los siguientes dos tipos:

Mensaje: Es un mensaje esperado del usuario final o del agente.
Llamada a la herramienta: Es una llamada a la herramienta con entradas y salidas esperadas.

Las expectativas pueden tener las siguientes condiciones:

Indispensable
No debe tener
Después de la llamada a la herramienta
Valor de la variable

Para crear una expectativa, haz lo siguiente:

Haz clic en una situación en particular para abrir sus detalles.
En la sección Expectativas, haz clic en Ver todo.
Sigue las instrucciones de la interfaz para crear expectativas sobre la situación.

Golden

Estos casos de prueba se usan para definir rutas de conversación ideales para las pruebas de regresión, de modo que las rutas de conversación principales y críticas no se interrumpan a medida que actualizas el agente. Existen varias opciones para crear una conversación de referencia:

Para importar una conversación desde el simulador, haz lo siguiente:

Inicia una conversación con el simulador.
Haz clic en los tres puntos verticales que se encuentran en la esquina superior derecha del simulador para abrir el menú.
Haz clic en Guardar como dorado.
Ingresa un nombre para el caso de prueba de referencia y haz clic en Guardar. Ahora aparecerá en la pestaña Evaluación.

Para crear un caso de prueba a partir del historial de conversaciones, sigue estos pasos:

Navega a la pestaña Evaluación y haz clic en + Agregar caso de prueba -> Golden.
Haz clic en Seleccionar del historial de conversaciones.
En la ventana que aparece, selecciona la conversación que deseas guardar como caso de prueba ideal. Puedes buscar por ID de conversación.
Si habilitaste la ocultación, verifica las respuestas y las variables del agente para asegurarte de que se oculten antes de continuar con la información faltante.
Haz clic en Agregar.

Para crear un caso de prueba desde cero, haz lo siguiente:

Navega a la pestaña Evaluación y haz clic en + Agregar caso de prueba -> Golden.
Haz clic en Crear desde cero.
En la ventana que aparece, agrega un Nombre visible para el caso de prueba.
Agrega texto para la entrada del usuario y la expectativa del agente según sea necesario. Haz clic en + Add user input y + Add agent expectation para agregar respuestas. Haz clic en + Agregar turno para agregar un nuevo turno de conversación al caso de prueba.
Haz clic en Crear para agregar el caso de prueba golden a tu lista de casos de prueba.

Para crear un caso de prueba a partir de una conversación simulada en un caso de prueba de situación, sigue estos pasos:

Navega a la página de resultados de la ejecución de la evaluación.
Haz clic en el ícono de menú (tres puntos verticales) a la derecha de la conversación seleccionada y, luego, en Guardar como conversación de referencia.

Para subir por lotes casos de prueba desde un archivo, haz lo siguiente:

Para obtener detalles sobre el formato de archivo y una plantilla CSV, consulta la página Formato CSV de casos de prueba de referencia.

Expectativas de referencia

Para realizar una evaluación, debes definir expectativas para el caso de prueba ideal. Una expectativa es un resultado específico que esperas del agente en un punto determinado de la conversación. Durante la evaluación, el comportamiento real del agente se compara con estas expectativas.

Las expectativas pueden ser de uno de los siguientes tipos:

Mensaje: Es una respuesta de texto esperada del agente para el usuario final. La evaluación verifica si la respuesta del agente coincide semánticamente con esta expectativa.
Llamada a la herramienta: Es una expectativa de que el agente llame a una herramienta y respuesta específicas. También puedes especificar los argumentos de entrada esperados para la llamada a la herramienta.
Transferencia de agente: Es la expectativa de que el agente transfiera la conversación a un agente humano o a otro bot.

Para crear una expectativa, haz lo siguiente:

Haz clic en un caso de prueba ideal en particular para abrir sus detalles.
En la sección Detalles, haz clic en Ver golden.
Sigue las instrucciones de la interfaz para agregar o modificar expectativas.

Configuración de la evaluación

En la fila de encabezado de la lista de casos de prueba, puedes configurar los parámetros de evaluación:

Goldens:
- Criterios de aprobación o rechazo definitivos: Establece la lógica para determinar si una conversación simulada se aprueba o se rechaza.
- Nivel de giro: Estas reglas evalúan cada giro individual. Si no se cumple alguno de estos umbrales, la métrica específica se codificará con el color rojo como un error.
  - Similitud semántica: Valor de umbral para la similitud semántica.
  - Corrección de la herramienta: Es el valor del umbral para la corrección de la herramienta.
  - Alucinaciones: Si se inhabilita, las alucinaciones se excluyen de la aprobación o el rechazo.
- Nivel de expectativa: Estas reglas juzgan las expectativas dentro de un turno. Si no se cumple alguno de estos umbrales, la métrica específica se codificará con el color rojo como un error.
  - Corrección de la herramienta: Es el valor del umbral para la corrección de la herramienta.
- Método de ejecución de referencia: Elige entre la validación de repetición ingenua o estable.
- Simulación de herramienta: Usa datos simulados en lugar de llamadas a la API de producción reales.
Scenarios:
- Criterios de aprobación o rechazo del caso: Establece la lógica para determinar si una conversación simulada se aprueba o se rechaza.
- Iniciador de la conversación: Establece quién inicia la conversación, el usuario o el modelo.
- Simulación de herramienta: Usa datos simulados en lugar de llamadas a la API de producción reales.
Evaluación de audio
- Grabaciones de evaluación de audio

Ejecuta evaluaciones

Para ejecutar una evaluación, puedes hacer clic en el botón de ejecución de la fila del caso de prueba o seleccionar varios casos de prueba y ejecutarlos.

Si guardaste varias versiones, puedes seleccionar qué versión del agente usar o guardar automáticamente tu agente de borrador como una versión nueva para la ejecución.

Después de ejecutar una evaluación, se actualizarán las métricas y se presentarán los resultados.

Si haces clic en una evaluación de ejecución en particular, puedes ver los resultados detallados de una ejecución. Además de las métricas estándar, se muestran las siguientes:

Giros fallidos
Lista paginada de todos los detalles de los turnos, que incluye las respuestas reales y esperadas del agente.

En el caso de las pruebas de referencia, es posible que veas el término "repetición estable", que aclara que la prueba se ejecutó en un entorno coherente (es decir, sin cambiar el contexto o la entrada).

Usa la IA para mejorar los casos de prueba (VERSIÓN PRELIMINAR)

De manera opcional, puedes usar la IA para solucionar problemas de una ejecución y sugerir formas de mejorar la calidad del agente. Las sugerencias de IA son óptimas cuando la cantidad de ejecuciones es de 3 o más. Para habilitar la IA, selecciona los casos de prueba que quieras evaluar y haz clic en Ejecutar los seleccionados. En la ventana emergente, marca la casilla junto a Buscar problemas con IA.

Una vez que finalice la ejecución, verás sugerencias basadas en IA en la página de resultados. Gemini genera automáticamente un loss_report descargable que resume aspectos del rendimiento del agente y destaca las áreas que se pueden mejorar.

Cualquier usuario puede ver las correcciones sugeridas por la IA, pero solo la persona que inició la ejecución puede realizar acciones basadas en los resultados.

Haz clic en Pregúntale a Gemini para interactuar con el agente de ayuda. Primero, verás el informe de pérdida que explica los problemas generales del modelo o el agente. Puedes pedirle al agente de ayuda que te explique el informe, que lo resumirá y puede sugerirte correcciones. Después de aplicar las correcciones, puedes pedirle al agente de ayuda que vuelva a ejecutar la evaluación.

Métricas

Cada resultado del caso de prueba incluye un conjunto de métricas que miden el rendimiento del agente en relación con los casos de prueba seleccionados. Las métricas se calculan a nivel del turno o de la expectativa (conversación), como se indica en la consola.

En todos los casos, puedes personalizar los valores necesarios para el pase de ejecución en el menú Configuración de la pestaña Evaluar.

Precisión de la herramienta

Se calcula para los casos de prueba dorados y de situaciones. Esta métrica refleja el porcentaje de parámetros esperados que coincidieron con una llamada a herramienta esperada y sus valores de parámetros esperados. Las llamadas a herramientas perdidas se califican como 0, y las llamadas a herramientas sin parámetros de entrada se califican como 1 si están presentes. Si se realiza una llamada a una herramienta inesperada durante una evaluación de oro, el resultado se considerará un error, pero esto no afectará el valor de corrección de la herramienta.

Satisfacción del objetivo del usuario

Se calcula para situaciones. La satisfacción del objetivo del usuario es una métrica binaria diseñada para las evaluaciones de simulación del usuario. Mide si el usuario simulado cree que se alcanzaron sus objetivos (0=no, 1=sí). Las entradas son el user_goal según lo define la configuración del usuario simulado y una transcripción de la conversación. Si el user_goal proporcionado no especifica un objetivo explícito o implícito, la puntuación de salida es -1.

Alucinaciones

Disponible para casos de prueba dorados y de situaciones. Las puntuaciones de alucinación se calculan para cada turno generado. Esta métrica refleja si el agente hizo afirmaciones que no están justificadas por su contexto (0=no, 1=sí). El contexto se compone de todos los turnos precedentes de la conversación, las variables de sesión, las llamadas a herramientas y las instrucciones del agente. Esta métrica solo se calcula para los turnos que contienen llamadas a herramientas. No detecta alucinaciones en las llamadas a herramientas; se supone que las llamadas a herramientas proporcionadas como contexto son correctas. Para minimizar los falsos positivos, es posible que la métrica muestre una puntuación de N/A si una respuesta no contiene afirmaciones fácticas o solo conocimiento general que ya se estableció.

Puedes habilitar e inhabilitar las alucinaciones en la configuración de evaluación.

Coincidencia semántica

Se calcula para los casos de prueba dorados. Esta métrica mide el grado en que una expresión observada del agente coincide con una expresión esperada del agente. La coincidencia semántica se calcula a nivel del turno. Los valores devueltos varían de 0 (completamente incoherente o contradictorio) a 4 (completamente coherente).

Expectativas de la situación

Se calcula para situaciones. Esta métrica mide si el comportamiento del agente, según lo esperado por los usuarios simulados, fue satisfactorio o no (0=no, 1=sí). Se admiten dos tipos de expectativas simuladas del usuario:

Expectativas de llamadas a herramientas: Se calculan de manera similar a la corrección de llamadas a herramientas, con las siguientes excepciones:
- Los resultados son 0 (no) o 1 (sí).
- Las llamadas a herramientas inesperadas no se penalizan. Las expectativas están diseñadas para especificar el conjunto de llamadas a herramientas que son esenciales para que una conversación satisfaga las expectativas del usuario simulado.
- Cuando se cumple una expectativa de entrada de llamada a herramienta, la llamada se intercepta y se reemplaza por un valor de devolución simulado en el tiempo de ejecución.
Expectativas de respuesta del agente: Verifica si alguna respuesta del agente en la conversación contiene una cadena esperada.

Finalización de la tarea

Se calcula para situaciones. La finalización de tareas es una medida de la calidad de la conversación. Mide de forma conjunta si se lograron los objetivos del usuario Y si el comportamiento del agente fue correcto. Se define de la siguiente manera:

User_Goal_Satisfied AND no_hallucinations_detected AND Expectations Satisfied

Personas

Las simulaciones de usuarios son arquetipos de usuarios simulados que puedes personalizar y usar para probar agentes con casos de prueba de situaciones. Esta función es útil para garantizar que el agente interactúe de manera adecuada con los tipos de usuarios humanos con los que es probable que se encuentre en el tiempo de ejecución.

Si no seleccionas un arquetipo, se seleccionará uno aleatorio para cada resultado del caso.

Esta función está disponible para su uso con entradas de texto y audio.

Crea un arquetipo

Para crear un arquetipo, navega a la pestaña Evaluar y haz clic en Administración de arquetipos (junto al ícono de configuración).
Haz clic en + Agregar arquetipo.
En el menú emergente, ingresa un Nombre, una Personalidad del usuario y cualquier Contexto del usuario adicional (como edad, ubicación, motivo de la llamada, etcétera).
Haz clic en + Agregar.

Para ejecutar una evaluación con un arquetipo de usuario, sigue estos pasos:

Regresa a la página principal Evaluate y selecciona uno o más casos de prueba de situaciones. Haz clic en Ejecutar los seleccionados.
En la ventana emergente, selecciona el arquetipo que acabas de crear en el menú desplegable Arquetipos y haz clic en Ejecutar.

Evaluación Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Conceptos de evaluación

Crea casos de prueba

Situación

Objetivo del usuario en la situación

Variables de situación

Expectativas de la situación

Golden

Expectativas de referencia

Configuración de la evaluación

Ejecuta evaluaciones

Usa la IA para mejorar los casos de prueba (VERSIÓN PRELIMINAR)

Métricas

Precisión de la herramienta

Satisfacción del objetivo del usuario

Alucinaciones

Coincidencia semántica

Expectativas de la situación

Finalización de la tarea

Personas

Crea un arquetipo

Evaluación