评估批次上传

本页面介绍了以 CSV 文件格式上传黄金评估数据所需的格式。如需详细了解黄金评估,请参阅黄金评估文档。

下载模板

  • 前往评估标签页,然后点击 + 添加测试用例 -> 黄金
  • 在随即显示的菜单中,点击下载模板
  • 使用模板创建包含黄金评估结果的 CSV 文件后,您可以在同一菜单中点击上传文件来上传该文件。

常规结构

  • 单个 CSV 文件可以包含多个评估。每次评估可以跨越多行。
  • 评估的第一行是评估行,用于定义评估的总体属性(名称和元数据)。
  • 后续的每一行都是对话行,用于定义评估中的单个对话回合(例如,最终用户说了一些内容,预期代理会回复,或者预期会进行工具调用)。
  • 您可以在 display_name 列中提供新名称,以开始新的测试用例。每个新的 display_name 值都表示一次新的评估开始。

标题行

您的 CSV 文件必须将标题行作为第一行。此标题定义了每列中的数据变量。除必需变量之外的所有变量都是可选变量,除非 action_type要求使用这些变量。 可选变量列可以位于必需变量之后的任何位置。

  • 必需变量display_nameturn_indexaction_type

定义对话评估

每次新评估都从评估行开始。评估行下方的每个对话行都对应一轮对话,直到下一个评估行。

评估行

标题行后的第一行必须是评估行。每个评估行都定义了一个新的评估。

  • 必需:在 display_name 字段中,输入一个人类可读的唯一评估名称。
  • 可选:您可以在此行中选择性地添加任何元数据变量数据

对话行

每一行都对应于一轮对话的数据。

  • 必需:在 turn_indexaction_type 字段中输入值。 display_name 必须留空。
  • 可选:输入除元数据变量display_name 之外的任何标题列的值。

变量

下表介绍了可用的数据变量。除非 action_type 值要求,否则除必需变量之外的所有变量都是可选的。所有变量都必须在标题行中定义,每列一个变量。 可选变量列可以位于必需列之后,并且可以按任意顺序排列。

必需的标头变量

列名 说明
display_name 评估的直观易懂的名称。此字段仅针对新评估的第一行进行填充。每个新的 display_name 值都定义了一次新的评估。
turn_index 一个数字(1、2、3...),表示对话轮次的先后顺序。一个轮次中的所有行共享一个指数值。每次评估的值都必须从 1 开始。后续各行的值必须等于或大于前一行。
action_type 指定相应行的数据所代表的含义。每个值都有可选的变量值,必须填写这些变量值(如指示),才能正确输入对话轮次。输入值必须是以下值之一:

INPUT_TEXT:最终用户输入的文本。
-(必需)text_content

INPUT_IMAGE:最终用户输入的图片。
-(必需)image_mime_typeimage_content

INPUT_TOOL_RESPONSE:工具响应输入。
-(必需)tool_name
-(可选)tool_response_json

INPUT_UPDATED_VARIABLES:根据输入更新变量。
-(必需)updated_variables_json

EXPECTATION_TEXT:智能体文本响应的预期输出。
-(必需)response_agenttext_content
-(可选)expectation_note

EXPECTATION_TOOL_CALL:预期工具调用。
-(必需)tool_name
-(可选)tool_call_args_jsonexpectation_note

EXPECTATION_TOOL_RESPONSE:预期工具响应。
-(必需)tool_name
-(可选)expectation_note

EXPECTATION_AGENT_TRANSFER:预期客服人员转移。
-(必需)agent_transfer_target
-(可选)expectation_note

元数据变量

列名 说明
evaluation_id 评估的唯一 ID。每个 evaluation_id 值都必须是 Customer Experience Agent Studio 代理独有的。如果未在此列中手动输入任何值,系统会自动生成一个唯一 ID。
description 自由格式的备注或评估目的说明。
tags 用于整理评估结果的标记(以半角分号分隔,例如“tag1;tag2”)。
evaluation_groups 相应评估所属的任何评估组的名称(以半角分号分隔,例如“group name 1;group name 2”)。此列中输入但未在标题中定义的任何 evaluation_groups 值都将被忽略。

对话回合变量

列名 说明
response_agent 提供回答的代理的名称。仅适用于 EXPECTATION_TEXT
text_content INPUT_TEXTEXPECTATION_TEXT 的文本。
image_mime_type 源图片的 IANA 标准 MIME 类型。支持的值:image/pngimage/jpegimage/webpimage/heicimage/heif
image_content INPUT_IMAGE 的字节字符串。
tool_name 被调用或响应的工具的 display_name。预期值为 INPUT_TOOL_RESPONSE,EXPECTATION_TOOL_CALLEXPECTATION_TOOL_RESPONSE
tool_call_args_json EXPECTATION_TOOL_CALL 的 JSON 实参。
tool_response_json INPUT_TOOL_RESPONSE 的 JSON 内容。
updated_variables_json INPUT_UPDATED_VARIABLES 的 JSON 内容。
agent_transfer_target EXPECTATION_AGENT_TRANSFER 的目标代理的显示名称。
expectation_note 预期结果的注释或说明。