En esta página, se describe el formato necesario para subir evaluaciones de referencia en un archivo CSV. Para obtener detalles sobre las evaluaciones de referencia, consulta la documentación sobre las evaluaciones de referencia.
Descarga la plantilla
- Navega a la pestaña Evaluate y haz clic en + Add test case -> Golden.
- En el menú que aparece, haz clic en Descargar plantilla.
- Después de usar la plantilla para crear un archivo CSV que contenga tus evaluaciones de referencia, puedes subirlo haciendo clic en Subir archivo en el mismo menú.
Estructura general
- Un solo archivo CSV puede contener varias evaluaciones. Cada evaluación puede abarcar varias filas.
- La primera fila de una evaluación es la fila de evaluación y define sus propiedades generales (nombre y metadatos).
- Cada fila posterior es una fila de conversación y define un solo turno de conversación en la evaluación (por ejemplo, un usuario final dice algo, se espera que el agente responda o se espera una llamada a la herramienta).
- Para comenzar un caso de prueba nuevo, proporciona un nombre nuevo en la columna
display_name. Cada valor dedisplay_namenuevo define el inicio de una nueva evaluación.
Fila de encabezado
Tu archivo CSV debe tener una fila de encabezado como la primera línea. Este encabezado define una variable de datos en cada columna. Todas las variables, excepto las obligatorias, son opcionales, a menos que lo requiera un valor de action_type.
Las columnas de variables opcionales pueden estar en cualquier orden después de las variables obligatorias.
- Variables obligatorias:
display_name,turn_index,action_type.
Cómo definir una evaluación de conversación
Cada evaluación nueva comienza en una fila de evaluación. Cada fila de conversación debajo de la fila de evaluación corresponde a un turno de conversación, hasta la siguiente fila de evaluación.
Fila de evaluación
La primera línea después de la fila de encabezado debe ser una fila de evaluación. Cada fila de evaluación define una nueva evaluación.
- Obligatorio: Ingresa un nombre único y legible para la evaluación en el campo
display_name. - Opcional: También puedes agregar datos de variables de metadatos en esta fila.
Fila de conversación
Cada fila corresponde a los datos de un turno de conversación.
- Obligatorio: Ingresa valores en los campos
turn_indexyaction_type.display_namedebe dejarse en blanco. - Opcional: Ingresa valores para cualquier columna de encabezado que no sean variables de metadatos o
display_name.
Variables
En las siguientes tablas, se describen las variables de datos disponibles. Todas las variables, excepto las obligatorias, son opcionales, a menos que lo requiera un valor de action_type. Todas las variables deben definirse en la fila de encabezado, una por columna.
Las columnas de variables opcionales pueden estar en cualquier orden después de las columnas obligatorias.
Variables de encabezado obligatorias
| Nombre de la columna | Descripción |
|---|---|
display_name |
Es el nombre legible de tu evaluación. Este campo solo se completa para la primera fila de una evaluación nueva. Cada valor de display_name nuevo define una evaluación nueva. |
turn_index |
Es un número (1, 2, 3…) que indica el orden secuencial del turno de conversación. Todas las filas de un turno comparten el valor del índice. Los valores deben comenzar en 1 para cada evaluación. Cada fila posterior debe tener el mismo valor o uno mayor que la fila anterior. |
action_type |
Especifica qué representan los datos de esta fila. Cada valor tiene valores de variables opcionales que también se deben completar (como se indica) para que el turno de conversación se ingrese correctamente. El valor de entrada debe ser uno de los siguientes:INPUT_TEXT: Es una entrada de texto del usuario final.: (obligatorio) text_content.INPUT_IMAGE: Es una entrada de imagen del usuario final.: (obligatorio) image_mime_type, image_content.INPUT_TOOL_RESPONSE: Es una entrada de respuesta de la herramienta.- (Obligatorio) tool_name.- (Opcional) tool_response_json.INPUT_UPDATED_VARIABLES: Actualiza variables a partir de una entrada.- (Obligatorio) updated_variables_jsonEXPECTATION_TEXT: Es el resultado esperado de una respuesta de texto del agente.- (Obligatorio) response_agent, text_content.- (Opcional) expectation_note.EXPECTATION_TOOL_CALL: Es la llamada a la herramienta esperada.- (Obligatorio) tool_name.- (Opcional) tool_call_args_json, expectation_note.EXPECTATION_TOOL_RESPONSE: Respuesta esperada de la herramienta.- (Obligatorio) tool_name.- (Opcional) expectation_note.EXPECTATION_AGENT_TRANSFER: Transferencia esperada del agente.- (Obligatorio) agent_transfer_target.- (Opcional) expectation_note. |
Variables de metadatos
| Nombre de la columna | Descripción |
|---|---|
evaluation_id |
Es un ID único para la evaluación. Cada valor de evaluation_id debe ser único para tu agente de Agent Studio para experiencia del cliente. Si no se ingresa ningún valor de forma manual en esta columna, se generará un ID único automáticamente. |
description |
Notas de texto libre o una descripción del propósito de la evaluación. |
tags |
Son etiquetas separadas por punto y coma para organizar las evaluaciones (por ejemplo, "etiqueta1;etiqueta2"). |
evaluation_groups |
Nombres separados por punto y coma de los grupos de evaluación a los que pertenece la evaluación (por ejemplo, "nombre del grupo 1;nombre del grupo 2"). Se ignorará cualquier valor de evaluation_groups que se ingrese en esta columna, pero que no se defina en el encabezado. |
Variables de turnos de conversación
| Nombre de la columna | Descripción |
|---|---|
response_agent |
Es el nombre del agente que proporcionó la respuesta. Solo se espera para EXPECTATION_TEXT. |
text_content |
Es el texto de INPUT_TEXT o EXPECTATION_TEXT. |
image_mime_type |
Es el tipo de MIME estándar de IANA de la imagen de origen. Valores admitidos: image/png, image/jpeg, image/webp, image/heic, image/heif. |
image_content |
Es la cadena de bytes del INPUT_IMAGE. |
tool_name |
Es el display_name de la herramienta a la que se llama o que responde. Se espera para INPUT_TOOL_RESPONSE,EXPECTATION_TOOL_CALL o EXPECTATION_TOOL_RESPONSE. |
tool_call_args_json |
Son los argumentos JSON para un EXPECTATION_TOOL_CALL. |
tool_response_json |
Es el contenido JSON de un INPUT_TOOL_RESPONSE. |
updated_variables_json |
Es el contenido JSON de INPUT_UPDATED_VARIABLES. |
agent_transfer_target |
Es el nombre visible del agente objetivo para un EXPECTATION_AGENT_TRANSFER. |
expectation_note |
Nota o descripción de la expectativa. |