本页面介绍了以 CSV 文件格式上传黄金评估数据所需的格式。如需详细了解黄金评估,请参阅黄金评估文档。
下载模板
- 前往评估标签页,然后点击 + 添加测试用例 -> 黄金。
- 在随即显示的菜单中,点击下载模板。
- 使用模板创建包含黄金评估结果的 CSV 文件后,您可以在同一菜单中点击上传文件来上传该文件。
常规结构
- 单个 CSV 文件可以包含多个评估。每次评估可以跨越多行。
- 评估的第一行是评估行,用于定义评估的总体属性(名称和元数据)。
- 后续的每一行都是对话行,用于定义评估中的单个对话回合(例如,最终用户说了一些内容,预期代理会回复,或者预期会进行工具调用)。
- 您可以在
display_name列中提供新名称,以开始新的测试用例。每个新的display_name值都表示一次新的评估开始。
标题行
您的 CSV 文件必须将标题行作为第一行。此标题定义了每列中的数据变量。除必需变量之外的所有变量都是可选变量,除非 action_type 值要求使用这些变量。
可选变量列可以位于必需变量之后的任何位置。
- 必需变量:
display_name、turn_index、action_type。
定义对话评估
每次新评估都从评估行开始。评估行下方的每个对话行都对应一轮对话,直到下一个评估行。
评估行
标题行后的第一行必须是评估行。每个评估行都定义了一个新的评估。
- 必需:在
display_name字段中,输入一个人类可读的唯一评估名称。 - 可选:您可以在此行中选择性地添加任何元数据变量数据。
对话行
每一行都对应于一轮对话的数据。
- 必需:在
turn_index和action_type字段中输入值。display_name必须留空。 - 可选:输入除元数据变量或
display_name之外的任何标题列的值。
变量
下表介绍了可用的数据变量。除非 action_type 值要求,否则除必需变量之外的所有变量都是可选的。所有变量都必须在标题行中定义,每列一个变量。
可选变量列可以位于必需列之后,并且可以按任意顺序排列。
必需的标头变量
| 列名 | 说明 |
|---|---|
display_name |
评估的直观易懂的名称。此字段仅针对新评估的第一行进行填充。每个新的 display_name 值都定义了一次新的评估。 |
turn_index |
一个数字(1、2、3...),表示对话轮次的先后顺序。一个轮次中的所有行共享一个指数值。每次评估的值都必须从 1 开始。后续各行的值必须等于或大于前一行。 |
action_type |
指定相应行的数据所代表的含义。每个值都有可选的变量值,必须填写这些变量值(如指示),才能正确输入对话轮次。输入值必须是以下值之一:INPUT_TEXT:最终用户输入的文本。-(必需) text_content。INPUT_IMAGE:最终用户输入的图片。-(必需) image_mime_type、image_content。INPUT_TOOL_RESPONSE:工具响应输入。-(必需) tool_name。-(可选) tool_response_json。INPUT_UPDATED_VARIABLES:根据输入更新变量。-(必需) updated_variables_jsonEXPECTATION_TEXT:智能体文本响应的预期输出。-(必需) response_agent、text_content。-(可选) expectation_note。EXPECTATION_TOOL_CALL:预期工具调用。-(必需) tool_name。-(可选) tool_call_args_json、expectation_note。EXPECTATION_TOOL_RESPONSE:预期工具响应。-(必需) tool_name。-(可选) expectation_note。EXPECTATION_AGENT_TRANSFER:预期客服人员转移。-(必需) agent_transfer_target。-(可选) expectation_note。 |
元数据变量
| 列名 | 说明 |
|---|---|
evaluation_id |
评估的唯一 ID。每个 evaluation_id 值都必须是 Customer Experience Agent Studio 代理独有的。如果未在此列中手动输入任何值,系统会自动生成一个唯一 ID。 |
description |
自由格式的备注或评估目的说明。 |
tags |
用于整理评估结果的标记(以半角分号分隔,例如“tag1;tag2”)。 |
evaluation_groups |
相应评估所属的任何评估组的名称(以半角分号分隔,例如“group name 1;group name 2”)。此列中输入但未在标题中定义的任何 evaluation_groups 值都将被忽略。 |
对话回合变量
| 列名 | 说明 |
|---|---|
response_agent |
提供回答的代理的名称。仅适用于 EXPECTATION_TEXT。 |
text_content |
INPUT_TEXT 或 EXPECTATION_TEXT 的文本。 |
image_mime_type |
源图片的 IANA 标准 MIME 类型。支持的值:image/png、image/jpeg、image/webp、image/heic、image/heif。 |
image_content |
INPUT_IMAGE 的字节字符串。 |
tool_name |
被调用或响应的工具的 display_name。预期值为 INPUT_TOOL_RESPONSE,EXPECTATION_TOOL_CALL 或 EXPECTATION_TOOL_RESPONSE。 |
tool_call_args_json |
EXPECTATION_TOOL_CALL 的 JSON 实参。 |
tool_response_json |
INPUT_TOOL_RESPONSE 的 JSON 内容。 |
updated_variables_json |
INPUT_UPDATED_VARIABLES 的 JSON 内容。 |
agent_transfer_target |
EXPECTATION_AGENT_TRANSFER 的目标代理的显示名称。 |
expectation_note |
预期结果的注释或说明。 |