Carga por lotes de la evaluación

En esta página, se describe el formato necesario para subir evaluaciones de referencia en un archivo CSV. Para obtener detalles sobre las evaluaciones de referencia, consulta la documentación sobre las evaluaciones de referencia.

Descarga la plantilla

Navega a la pestaña Evaluate y haz clic en + Add test case -> Golden.
En el menú que aparece, haz clic en Descargar plantilla.
Después de usar la plantilla para crear un archivo CSV que contenga tus evaluaciones de referencia, puedes subirlo haciendo clic en Subir archivo en el mismo menú.

Estructura general

Un solo archivo CSV puede contener varias evaluaciones. Cada evaluación puede abarcar varias filas.
La primera fila de una evaluación es la fila de evaluación y define sus propiedades generales (nombre y metadatos).
Cada fila posterior es una fila de conversación y define un solo turno de conversación en la evaluación (por ejemplo, un usuario final dice algo, se espera que el agente responda o se espera una llamada a la herramienta).
Para comenzar un caso de prueba nuevo, proporciona un nombre nuevo en la columna display_name. Cada valor de display_name nuevo define el inicio de una nueva evaluación.

Fila de encabezado

Tu archivo CSV debe tener una fila de encabezado como la primera línea. Este encabezado define una variable de datos en cada columna. Todas las variables, excepto las obligatorias, son opcionales, a menos que lo requiera un valor de action_type. Las columnas de variables opcionales pueden estar en cualquier orden después de las variables obligatorias.

Variables obligatorias: display_name, turn_index, action_type.

Cómo definir una evaluación de conversación

Cada evaluación nueva comienza en una fila de evaluación. Cada fila de conversación debajo de la fila de evaluación corresponde a un turno de conversación, hasta la siguiente fila de evaluación.

Fila de evaluación

La primera línea después de la fila de encabezado debe ser una fila de evaluación. Cada fila de evaluación define una nueva evaluación.

Obligatorio: Ingresa un nombre único y legible para la evaluación en el campo display_name.
Opcional: También puedes agregar datos de variables de metadatos en esta fila.

Fila de conversación

Cada fila corresponde a los datos de un turno de conversación.

Obligatorio: Ingresa valores en los campos turn_index y action_type. display_name debe dejarse en blanco.
Opcional: Ingresa valores para cualquier columna de encabezado que no sean variables de metadatos o display_name.

Variables

En las siguientes tablas, se describen las variables de datos disponibles. Todas las variables, excepto las obligatorias, son opcionales, a menos que lo requiera un valor de action_type. Todas las variables deben definirse en la fila de encabezado, una por columna. Las columnas de variables opcionales pueden estar en cualquier orden después de las columnas obligatorias.

Variables de encabezado obligatorias

Nombre de la columna	Descripción
`display_name`	Es el nombre legible de tu evaluación. Este campo solo se completa para la primera fila de una evaluación nueva. Cada valor de `display_name` nuevo define una evaluación nueva.
`turn_index`	Es un número (1, 2, 3…) que indica el orden secuencial del turno de conversación. Todas las filas de un turno comparten el valor del índice. Los valores deben comenzar en 1 para cada evaluación. Cada fila posterior debe tener el mismo valor o uno mayor que la fila anterior.
`action_type`	Especifica qué representan los datos de esta fila. Cada valor tiene valores de variables opcionales que también se deben completar (como se indica) para que el turno de conversación se ingrese correctamente. El valor de entrada debe ser uno de los siguientes: `INPUT_TEXT`: Es una entrada de texto del usuario final. : (obligatorio) `text_content`. `INPUT_IMAGE`: Es una entrada de imagen del usuario final. : (obligatorio) `image_mime_type`, `image_content`. `INPUT_TOOL_RESPONSE`: Es una entrada de respuesta de la herramienta. - (Obligatorio) `tool_name`. - (Opcional) `tool_response_json`. `INPUT_UPDATED_VARIABLES`: Actualiza variables a partir de una entrada. - (Obligatorio) `updated_variables_json` `EXPECTATION_TEXT`: Es el resultado esperado de una respuesta de texto del agente. - (Obligatorio) `response_agent`, `text_content`. - (Opcional) `expectation_note`. `EXPECTATION_TOOL_CALL`: Es la llamada a la herramienta esperada. - (Obligatorio) `tool_name`. - (Opcional) `tool_call_args_json`, `expectation_note`. `EXPECTATION_TOOL_RESPONSE`: Respuesta esperada de la herramienta. - (Obligatorio) `tool_name`. - (Opcional) `expectation_note`. `EXPECTATION_AGENT_TRANSFER`: Transferencia esperada del agente. - (Obligatorio) `agent_transfer_target`. - (Opcional) `expectation_note`.

Variables de metadatos

Nombre de la columna	Descripción
`evaluation_id`	Es un ID único para la evaluación. Cada valor de `evaluation_id` debe ser único para tu agente de Agent Studio para experiencia del cliente. Si no se ingresa ningún valor de forma manual en esta columna, se generará un ID único automáticamente.
`description`	Notas de texto libre o una descripción del propósito de la evaluación.
`tags`	Son etiquetas separadas por punto y coma para organizar las evaluaciones (por ejemplo, "etiqueta1;etiqueta2").
`evaluation_groups`	Nombres separados por punto y coma de los grupos de evaluación a los que pertenece la evaluación (por ejemplo, "nombre del grupo 1;nombre del grupo 2"). Se ignorará cualquier valor de `evaluation_groups` que se ingrese en esta columna, pero que no se defina en el encabezado.

Variables de turnos de conversación

Nombre de la columna	Descripción
`response_agent`	Es el nombre del agente que proporcionó la respuesta. Solo se espera para `EXPECTATION_TEXT`.
`text_content`	Es el texto de `INPUT_TEXT` o `EXPECTATION_TEXT`.
`image_mime_type`	Es el tipo de MIME estándar de IANA de la imagen de origen. Valores admitidos: `image/png`, `image/jpeg`, `image/webp`, `image/heic`, `image/heif`.
`image_content`	Es la cadena de bytes del `INPUT_IMAGE`.
`tool_name`	Es el `display_name` de la herramienta a la que se llama o que responde. Se espera para `INPUT_TOOL_RESPONSE,EXPECTATION_TOOL_CALL` o `EXPECTATION_TOOL_RESPONSE`.
`tool_call_args_json`	Son los argumentos JSON para un `EXPECTATION_TOOL_CALL`.
`tool_response_json`	Es el contenido JSON de un `INPUT_TOOL_RESPONSE`.
`updated_variables_json`	Es el contenido JSON de `INPUT_UPDATED_VARIABLES`.
`agent_transfer_target`	Es el nombre visible del agente objetivo para un `EXPECTATION_AGENT_TRANSFER`.
`expectation_note`	Nota o descripción de la expectativa.