Evaluación automática de resúmenes

La evaluación automática de resúmenes es fundamental para dejar de usar la garantía de calidad manual basada en hojas de cálculo y pasar a la validación automatizada y escalable de modelos de resumen. Esta función proporciona las pruebas empíricas necesarias para aumentar las ventas de versiones de modelos o validar los cambios en las peticiones personalizadas.

Antes de la autoevaluación, para validar un modelo de resumen, las personas tenían que leer las transcripciones y calificar los resúmenes manualmente, lo que era un proceso lento, caro y subjetivo. La autoevaluación de resúmenes mejora la validación de los modelos de resumen de las siguientes formas:

  • Escala: evalúa cientos de conversaciones en unos 20 o 30 minutos.
  • Coherencia: los jueces basados en LLMs puntúan la precisión, la coherencia y la integridad.
  • Comparación: ofrece pruebas comparativas de que el modelo A tiene un mejor rendimiento que el modelo B.

Antes de empezar

  • Para llevar a cabo una evaluación, necesitas un generador de resúmenes (la configuración del modelo) y un conjunto de datos (las conversaciones).
  • Si quieres usar un conjunto de datos de Estadísticas de la experiencia del cliente, pero no has creado ninguno, ve a la consola de Estadísticas de la experiencia del cliente. Si tienes archivos de transcripción sin procesar, conviértelos al formato admitido para subirlos.

Las dos fuentes de datos

Tiene dos opciones para ingerir datos de conversaciones.

Tipo de fuente Ideal para... Cómo funciona
Almacenamiento de Agent Assist Tráfico de producción o real Selecciona un periodo y un tamaño de muestra. La autoevaluación de resúmenes toma muestras aleatorias del tráfico real almacenado en tu sistema.
Conjunto de datos de Conversational Insights Probar situaciones concretas Selecciona un conjunto de datos seleccionado creado en Estadísticas de Experiencia del Cliente. Esta opción es la más adecuada para conjuntos de referencia o casos de prueba específicos.

Paso 1: Crea un generador

  1. Ve a Evaluaciones y haz clic en Nueva evaluación.
  2. Introduce los siguientes datos:
    • Nombre visible: utiliza una convención de nomenclatura que incluya la versión del modelo y la fecha.
    • Función: selecciona Resumen.
    • Generador: selecciona el generador específico que quieras probar.

Paso 2: Crea un conjunto de datos de conversaciones

Seleccione una de las siguientes fuentes de datos de resumen.

  • Generar nuevos resúmenes de todas las conversaciones: se recomienda para probar nuevas versiones del modelo.
  • Generar solo los resúmenes que faltan del conjunto de datos: se recomienda cuando no todas las transcripciones de conversaciones tienen resúmenes correspondientes en función del generador seleccionado en el paso anterior.
  • Usar los resúmenes del conjunto de datos. No generar resúmenes: se recomienda para calificar lo que ya se ha producido sin regenerar el contenido o para comparar el rendimiento de diferentes generadores de resúmenes.

Paso 3: Elige un recurso de Cloud Storage

Elige una carpeta de Cloud Storage en un segmento para almacenar el resultado.

Aunque la consola de Asistente muestra resultados generales, puedes exportar los datos detallados de cada fila como un archivo CSV. Esta es la fuente de información fiable para solucionar problemas en profundidad.

Paso 4: Interpreta las métricas

Una vez completada la prueba, verás una tarjeta de resultados con las puntuaciones de cada métrica de evaluación.

Desglosar información

Puedes hacer clic en cualquier fila de conversación específica para ver los siguientes detalles:

  • La transcripción con el diálogo sin procesar
  • Los candidatos de resumen
  • Explicación de la autoevaluación de un resumen de una puntuación específica

Paso 5: Usar el modo de comparación

Puedes seleccionar dos ejecuciones de evaluación distintas y compararlas. Compara los modelos de evaluación del mismo conjunto de datos para asegurarte de que los comparas con la misma información. Si cambia el conjunto de datos entre ejecuciones, la comparación no será válida. Comprueba siempre que el ID del conjunto de datos coincida con el de los metadatos.

Sigue estos pasos para ver pruebas de que has actualizado tu modelo de resumen a la versión más reciente.

  1. Realiza la evaluación A con tu modelo actual.
  2. Ejecuta la evaluación B en el mismo conjunto de datos con el modelo más reciente.
  3. Selecciona ambas evaluaciones de la lista y haz clic en Comparar.

La consola de Asistente destaca las puntuaciones más altas.

Consejos para solucionar problemas y prácticas recomendadas

  • Sube tus propios archivos de texto sin formato para evaluarlos. Primero, crea un conjunto de datos de estadísticas de experiencia de cliente.
  • La consola muestra la sección Situación concisa, pero el texto de resumen la muestra en segundo lugar. El orden de la barra lateral puede no coincidir perfectamente con el orden de generación del texto. Para obtener la estructura definitiva, consulta el contenido de texto y la exportación CSV.
  • Acerca de las puntuaciones automatizadas Son fiables, pero verifica la información. El modelo de autoevaluación se calibra para emular la interacción humana, pero existen casos límite. Utiliza siempre la exportación de CSV de Cloud Storage para auditar manualmente una pequeña muestra y así generar confianza en la puntuación automatizada.