评估批次上传

本页面介绍了以 CSV 文件格式上传黄金评估数据所需的格式。如需详细了解黄金评估，请参阅黄金评估文档。

下载模板

前往评估标签页，然后点击 + 添加测试用例 -> 黄金。
在随即显示的菜单中，点击下载模板。
使用模板创建包含黄金评估结果的 CSV 文件后，您可以在同一菜单中点击上传文件来上传该文件。

常规结构

单个 CSV 文件可以包含多个评估。每次评估可以跨越多行。
评估的第一行是评估行，用于定义评估的总体属性（名称和元数据）。
后续的每一行都是对话行，用于定义评估中的单个对话回合（例如，最终用户说了一些内容，预期代理会回复，或者预期会进行工具调用）。
您可以在 display_name 列中提供新名称，以开始新的测试用例。每个新的 display_name 值都表示一次新的评估开始。

标题行

您的 CSV 文件必须将标题行作为第一行。此标题定义了每列中的数据变量。除必需变量之外的所有变量都是可选变量，除非 action_type 值要求使用这些变量。可选变量列可以位于必需变量之后的任何位置。

必需变量：display_name、turn_index、action_type。

定义对话评估

每次新评估都从评估行开始。评估行下方的每个对话行都对应一轮对话，直到下一个评估行。

评估行

标题行后的第一行必须是评估行。每个评估行都定义了一个新的评估。

必需：在 display_name 字段中，输入一个人类可读的唯一评估名称。
可选：您可以在此行中选择性地添加任何元数据变量数据。

对话行

每一行都对应于一轮对话的数据。

必需：在 turn_index 和 action_type 字段中输入值。 display_name 必须留空。
可选：输入除元数据变量或 display_name 之外的任何标题列的值。

变量

下表介绍了可用的数据变量。除非 action_type 值要求，否则除必需变量之外的所有变量都是可选的。所有变量都必须在标题行中定义，每列一个变量。可选变量列可以位于必需列之后，并且可以按任意顺序排列。

必需的标头变量

列名	说明
`display_name`	评估的直观易懂的名称。此字段仅针对新评估的第一行进行填充。每个新的 `display_name` 值都定义了一次新的评估。
`turn_index`	一个数字（1、2、3...），表示对话轮次的先后顺序。一个轮次中的所有行共享一个指数值。每次评估的值都必须从 1 开始。后续各行的值必须等于或大于前一行。
`action_type`	指定相应行的数据所代表的含义。每个值都有可选的变量值，必须填写这些变量值（如指示），才能正确输入对话轮次。输入值必须是以下值之一： `INPUT_TEXT`：最终用户输入的文本。 -（必需）`text_content`。 `INPUT_IMAGE`：最终用户输入的图片。 -（必需）`image_mime_type`、`image_content`。 `INPUT_TOOL_RESPONSE`：工具响应输入。 -（必需）`tool_name`。 -（可选）`tool_response_json`。 `INPUT_UPDATED_VARIABLES`：根据输入更新变量。 -（必需）`updated_variables_json` `EXPECTATION_TEXT`：智能体文本响应的预期输出。 -（必需）`response_agent`、`text_content`。 -（可选）`expectation_note`。 `EXPECTATION_TOOL_CALL`：预期工具调用。 -（必需）`tool_name`。 -（可选）`tool_call_args_json`、`expectation_note`。 `EXPECTATION_TOOL_RESPONSE`：预期工具响应。 -（必需）`tool_name`。 -（可选）`expectation_note`。 `EXPECTATION_AGENT_TRANSFER`：预期客服人员转移。 -（必需）`agent_transfer_target`。 -（可选）`expectation_note`。

元数据变量

列名	说明
`evaluation_id`	评估的唯一 ID。每个 `evaluation_id` 值都必须是 Customer Experience Agent Studio 代理独有的。如果未在此列中手动输入任何值，系统会自动生成一个唯一 ID。
`description`	自由格式的备注或评估目的说明。
`tags`	用于整理评估结果的标记（以半角分号分隔，例如“tag1;tag2”）。
`evaluation_groups`	相应评估所属的任何评估组的名称（以半角分号分隔，例如“group name 1;group name 2”）。此列中输入但未在标题中定义的任何 `evaluation_groups` 值都将被忽略。

对话回合变量

列名	说明
`response_agent`	提供回答的代理的名称。仅适用于 `EXPECTATION_TEXT`。
`text_content`	`INPUT_TEXT` 或 `EXPECTATION_TEXT` 的文本。
`image_mime_type`	源图片的 IANA 标准 MIME 类型。支持的值：`image/png`、`image/jpeg`、`image/webp`、`image/heic`、`image/heif`。
`image_content`	`INPUT_IMAGE` 的字节字符串。
`tool_name`	被调用或响应的工具的 `display_name`。预期值为 `INPUT_TOOL_RESPONSE,EXPECTATION_TOOL_CALL` 或 `EXPECTATION_TOOL_RESPONSE`。
`tool_call_args_json`	`EXPECTATION_TOOL_CALL` 的 JSON 实参。
`tool_response_json`	`INPUT_TOOL_RESPONSE` 的 JSON 内容。
`updated_variables_json`	`INPUT_UPDATED_VARIABLES` 的 JSON 内容。
`agent_transfer_target`	`EXPECTATION_AGENT_TRANSFER` 的目标代理的显示名称。
`expectation_note`	预期结果的注释或说明。