Carga por lotes de la evaluación

En esta página, se describe el formato necesario para subir evaluaciones de referencia en un archivo CSV. Para obtener detalles sobre las evaluaciones de referencia, consulta la documentación sobre las evaluaciones de referencia.

Descarga la plantilla

  • Navega a la pestaña Evaluate y haz clic en + Add test case -> Golden.
  • En el menú que aparece, haz clic en Descargar plantilla.
  • Después de usar la plantilla para crear un archivo CSV que contenga tus evaluaciones de referencia, puedes subirlo haciendo clic en Subir archivo en el mismo menú.

Estructura general

  • Un solo archivo CSV puede contener varias evaluaciones. Cada evaluación puede abarcar varias filas.
  • La primera fila de una evaluación es la fila de evaluación y define sus propiedades generales (nombre y metadatos).
  • Cada fila posterior es una fila de conversación y define un solo turno de conversación en la evaluación (por ejemplo, un usuario final dice algo, se espera que el agente responda o se espera una llamada a la herramienta).
  • Para comenzar un caso de prueba nuevo, proporciona un nombre nuevo en la columna display_name. Cada valor de display_name nuevo define el inicio de una nueva evaluación.

Fila de encabezado

Tu archivo CSV debe tener una fila de encabezado como la primera línea. Este encabezado define una variable de datos en cada columna. Todas las variables, excepto las obligatorias, son opcionales, a menos que lo requiera un valor de action_type. Las columnas de variables opcionales pueden estar en cualquier orden después de las variables obligatorias.

  • Variables obligatorias: display_name, turn_index, action_type.

Cómo definir una evaluación de conversación

Cada evaluación nueva comienza en una fila de evaluación. Cada fila de conversación debajo de la fila de evaluación corresponde a un turno de conversación, hasta la siguiente fila de evaluación.

Fila de evaluación

La primera línea después de la fila de encabezado debe ser una fila de evaluación. Cada fila de evaluación define una nueva evaluación.

  • Obligatorio: Ingresa un nombre único y legible para la evaluación en el campo display_name.
  • Opcional: También puedes agregar datos de variables de metadatos en esta fila.

Fila de conversación

Cada fila corresponde a los datos de un turno de conversación.

  • Obligatorio: Ingresa valores en los campos turn_index y action_type. display_name debe dejarse en blanco.
  • Opcional: Ingresa valores para cualquier columna de encabezado que no sean variables de metadatos o display_name.

Variables

En las siguientes tablas, se describen las variables de datos disponibles. Todas las variables, excepto las obligatorias, son opcionales, a menos que lo requiera un valor de action_type. Todas las variables deben definirse en la fila de encabezado, una por columna. Las columnas de variables opcionales pueden estar en cualquier orden después de las columnas obligatorias.

Variables de encabezado obligatorias

Nombre de la columna Descripción
display_name Es el nombre legible de tu evaluación. Este campo solo se completa para la primera fila de una evaluación nueva. Cada valor de display_name nuevo define una evaluación nueva.
turn_index Es un número (1, 2, 3…) que indica el orden secuencial del turno de conversación. Todas las filas de un turno comparten el valor del índice. Los valores deben comenzar en 1 para cada evaluación. Cada fila posterior debe tener el mismo valor o uno mayor que la fila anterior.
action_type Especifica qué representan los datos de esta fila. Cada valor tiene valores de variables opcionales que también se deben completar (como se indica) para que el turno de conversación se ingrese correctamente. El valor de entrada debe ser uno de los siguientes:

INPUT_TEXT: Es una entrada de texto del usuario final.
: (obligatorio) text_content.

INPUT_IMAGE: Es una entrada de imagen del usuario final.
: (obligatorio) image_mime_type, image_content.

INPUT_TOOL_RESPONSE: Es una entrada de respuesta de la herramienta.
- (Obligatorio) tool_name.
- (Opcional) tool_response_json.

INPUT_UPDATED_VARIABLES: Actualiza variables a partir de una entrada.
- (Obligatorio) updated_variables_json

EXPECTATION_TEXT: Es el resultado esperado de una respuesta de texto del agente.
- (Obligatorio) response_agent, text_content.
- (Opcional) expectation_note.

EXPECTATION_TOOL_CALL: Es la llamada a la herramienta esperada.
- (Obligatorio) tool_name.
- (Opcional) tool_call_args_json, expectation_note.

EXPECTATION_TOOL_RESPONSE: Respuesta esperada de la herramienta.
- (Obligatorio) tool_name.
- (Opcional) expectation_note.

EXPECTATION_AGENT_TRANSFER: Transferencia esperada del agente.
- (Obligatorio) agent_transfer_target.
- (Opcional) expectation_note.

Variables de metadatos

Nombre de la columna Descripción
evaluation_id Es un ID único para la evaluación. Cada valor de evaluation_id debe ser único para tu agente de Agent Studio para experiencia del cliente. Si no se ingresa ningún valor de forma manual en esta columna, se generará un ID único automáticamente.
description Notas de texto libre o una descripción del propósito de la evaluación.
tags Son etiquetas separadas por punto y coma para organizar las evaluaciones (por ejemplo, "etiqueta1;etiqueta2").
evaluation_groups Nombres separados por punto y coma de los grupos de evaluación a los que pertenece la evaluación (por ejemplo, "nombre del grupo 1;nombre del grupo 2"). Se ignorará cualquier valor de evaluation_groups que se ingrese en esta columna, pero que no se defina en el encabezado.

Variables de turnos de conversación

Nombre de la columna Descripción
response_agent Es el nombre del agente que proporcionó la respuesta. Solo se espera para EXPECTATION_TEXT.
text_content Es el texto de INPUT_TEXT o EXPECTATION_TEXT.
image_mime_type Es el tipo de MIME estándar de IANA de la imagen de origen. Valores admitidos: image/png, image/jpeg, image/webp, image/heic, image/heif.
image_content Es la cadena de bytes del INPUT_IMAGE.
tool_name Es el display_name de la herramienta a la que se llama o que responde. Se espera para INPUT_TOOL_RESPONSE,EXPECTATION_TOOL_CALL o EXPECTATION_TOOL_RESPONSE.
tool_call_args_json Son los argumentos JSON para un EXPECTATION_TOOL_CALL.
tool_response_json Es el contenido JSON de un INPUT_TOOL_RESPONSE.
updated_variables_json Es el contenido JSON de INPUT_UPDATED_VARIABLES.
agent_transfer_target Es el nombre visible del agente objetivo para un EXPECTATION_AGENT_TRANSFER.
expectation_note Nota o descripción de la expectativa.