Evaluación automática de resúmenes

La evaluación automática del resumen (autoevaluación) es fundamental para dejar de usar el control de calidad manual basado en hojas de cálculo y avanzar hacia la validación automatizada y escalable de los modelos de resumen. Esta función proporciona la evidencia empírica necesaria para aumentar las ventas de las versiones del modelo o validar los cambios en las instrucciones personalizadas.

Antes de la autoevaluación, validar un modelo de resumen requería que los humanos leyeran transcripciones y calificaran resúmenes de forma manual, lo que era un proceso lento, costoso y subjetivo. La autoevaluación del resumen mejora la validación del modelo de resumen de las siguientes maneras:

  • Escala: Evalúa cientos de conversaciones en aproximadamente 20 a 30 minutos.
  • Coherencia: Los jueces basados en LLM califican la exactitud, la adecuación y la integridad.
  • Comparación: Proporciona evidencia comparativa de que el modelo A tiene un mejor rendimiento que el modelo B.

Antes de comenzar

  • Para ejecutar una evaluación, necesitas un generador de resúmenes (la configuración del modelo) y un conjunto de datos (las conversaciones).
  • Si quieres usar un conjunto de datos de Customer Experience Insights, pero no creaste uno, ve a la consola de Customer Experience Insights. Si tienes archivos de transcripción sin procesar, conviértelos al formato admitido para subirlos.

Las dos fuentes de datos

Tienes las siguientes dos opciones para transferir datos de conversaciones.

Tipo de origen Ideal para… Cómo funciona
Almacenamiento de Agent Assist Tráfico de producción/en vivo Seleccionas un período y un tamaño de muestra. La autoevaluación del resumen toma muestras aleatorias del tráfico real almacenado en tu sistema.
Conjunto de datos de Estadísticas de conversación Prueba situaciones específicas Seleccionas un conjunto de datos seleccionado creado en Customer Experience Insights. Es ideal para conjuntos de datos de referencia o casos de prueba específicos.

Paso 1: Crea un generador

  1. Navega a Evaluaciones y haz clic en Nueva evaluación.
  2. Ingresa los siguientes detalles:
    • Nombre visible: Usa una convención de nomenclatura que incluya la versión y la fecha del modelo.
    • Función: Selecciona Resumen.
    • Generador: Selecciona el generador específico que deseas probar.

Paso 2: Crea un conjunto de datos de conversación

Selecciona una de las siguientes fuentes de datos de resumen.

  • Generar nuevos resúmenes para todas las conversaciones: Se recomienda para probar versiones nuevas del modelo.
  • Generar solo los resúmenes faltantes del conjunto de datos: Se recomienda cuando no todas las transcripciones de conversaciones tienen resúmenes correspondientes según el generador seleccionado en el paso anterior.
  • Usar resúmenes existentes del conjunto de datos No generar resúmenes: Se recomienda para calificar lo que ya se produjo sin regeneración o para comparar el rendimiento de diferentes generadores de resúmenes.

Paso 3: Elige un recurso de Cloud Storage

Elige una carpeta de Cloud Storage en un bucket para almacenar el resultado.

Si bien la consola de Agent Assist muestra resultados de alto nivel, exporta los datos detallados fila por fila como un archivo CSV. Esta es la fuente de información para la solución de problemas detallada.

Paso 4: Interpreta las métricas

Una vez que se complete la ejecución, verás un cuadro de evaluación con las puntuaciones de cada métrica de evaluación.

Desglosar información

Puedes hacer clic en cualquier fila de conversación específica para ver los siguientes detalles:

  • La transcripción con el diálogo sin procesar
  • Los candidatos de resumen
  • Explicación de la autoevaluación del resumen de una puntuación específica

Paso 5: Usa el modo de comparación

Puedes seleccionar dos ejecuciones de evaluación distintas y compararlas. Compara los modelos de evaluación para el mismo conjunto de datos y asegúrate de que la comparación se realice con la misma información. Si cambias el conjunto de datos entre ejecuciones, la comparación no será válida. Siempre verifica que los IDs del conjunto de datos coincidan en los metadatos.

Sigue estos pasos para ver evidencia de la actualización de tu modelo de resumen a la versión más reciente.

  1. Ejecuta la evaluación A con tu modelo actual.
  2. Ejecuta la evaluación B en el mismo conjunto de datos con el modelo más reciente.
  3. Selecciona ambas evaluaciones en la lista y haz clic en Comparar.

La consola de Agent Assist destaca las puntuaciones más altas.

Sugerencias y prácticas recomendadas para la solución de problemas

  • Sube tus propios archivos de texto sin procesar para la evaluación. Primero, crea un conjunto de datos de Customer Experience Insights.
  • La consola muestra la sección Situación concisa, pero el texto de resumen la enumera en segundo lugar. Es posible que el orden de la barra lateral no coincida perfectamente con el orden de generación de texto. Confía en el contenido de texto y en la exportación CSV para obtener la estructura definitiva.
  • Acerca de las puntuaciones automáticas. Son confiables, pero verifícalos. El modelo de autoevaluación está calibrado para emular la interacción humana, pero existen casos extremos. Siempre usa la exportación a CSV de Cloud Storage para auditar manualmente una pequeña muestra y generar confianza en la puntuación automatizada.