评估

评估是测试代理性能并确保其在特定情况下按预期运行的关键工具。通过评估，您可以自动执行测试，在进行更改后发现回归，并衡量智能体回答的质量，从而提高智能体的质量。

如需开始评估，请点击代理构建器顶部的评估按钮。

评估概念

测试用例：每个测试用例都是一个特定的独立测试场景或提示，旨在评估代理的性能。您可以创建两种不同类型的测试用例：

应用场景：一项 AI 赋能的功能，可帮助您启动测试并确保全面的测试覆盖率。您描述用户的目标，系统会自动模拟用户并生成对话，以测试智能体在相应场景中稳健处理问题的能力。场景是进行实验和帮助定义黄金对话的有效方式。
黄金：非常适合回归测试。您提供一个具体的“理想”对话路径，评估会检查代理的行为是否与此理想路径相符，包括工具调用。

运行：评估运行是指针对您要测试的代理的性能，完整执行一组黄金测试用例和场景测试用例的单个过程。每次运行可以包含一个或多个测试用例。

结果：测试用例结果是指在一次运行中对特定测试用例的单次执行。如果一个测试用例在一次评估运行期间运行多次（例如，为了检查一致性、不稳定性等），则每次单独的执行都是一个单独的结果。结果以矩形图标的形式显示在每个测试用例行的列中，如果运行失败，则显示红色 X，如果运行成功，则显示绿色对勾标记。

标记：测试用例可使用标记进行分组，以便于管理。

创建测试用例

如需为代理创建和访问测试用例，请点击代理构建器顶部的评估按钮。您可以创建和管理基于黄金或场景的测试用例。

场景

基于场景的测试用例使用 AI 根据您定义的高级用户目标自动生成各种对话。对于这些测试用例，您无需提供具体的黄金对话，而是选择生成的场景或描述必须测试的具体场景。这是一款强大的工具，可帮助您探索极端情况并测试代理的稳健性，而无需手动编写每条可能的对话路径。

在这些场景运行良好后，您可以将它们保存为黄金对话。

如需创建方案，请执行以下操作：

点击创建方案。我们为您推荐了多种方案。
您可以根据所选内容生成方案，也可以从头开始创建新方案。

查看方案列表时，点击方案即可列出每个方案的详细信息和对话列表。

如需将某个场景保存为黄金对话，请执行以下操作：

选择相应场景。
点击右上角的菜单按钮。
选择另存为黄金对话。

场景用户目标

每个场景都有一个用户目标，用于描述最终用户在使用代理应用时的目标。例如：

Securely book a specific room at a chosen hotel and receive a confirmation.

CX Agent Studio 会根据您的用户目标自动生成用于评估的对话。

方案变量

定义场景时，您可以提供应在场景中使用的变量。

场景预期

为了执行评估，您需要为测试用例定义预期结果。

预期可以是以下两种类型之一：

消息：预期的最终用户或代理消息。
工具调用：具有预期输入和输出的工具调用。

预期可以具有以下条件：

必备
不得有
工具调用后
变量值

如需创建预期，请执行以下操作：

点击特定场景即可打开其详细信息。
在预期部分，点击查看全部。
按照界面说明为相应场景创建预期。

金色

这些测试用例用于为回归测试定义理想的对话路径，以便在您更新代理时，核心关键对话路径不会中断。您可以通过多种方式打造精彩对话：

如需从模拟器导入对话，请执行以下操作：

使用模拟器开始对话。
点击模拟器右上角的三点状图标，打开模拟器菜单。
点击另存为黄金标准。
为黄金测试用例输入名称，然后点击保存。现在，该评估将显示在评估标签页中。

如需根据对话历史记录创建测试用例，请执行以下操作：

前往评估标签页，然后点击 + 添加测试用例 -> 黄金。
点击从对话记录中选择。
在随即显示的窗口中，选择要另存为黄金测试用例的对话。您可以选择按对话 ID 进行搜索。
如果您已启用遮盖功能，请在继续处理缺失的信息之前，检查客服人员的回答和变量是否已遮盖。
点击 Add（添加）。

如需从头开始创建测试用例，请执行以下操作：

前往评估标签页，然后点击 + 添加测试用例 -> 黄金。
点击从头开始创建。
在随即显示的窗口中，为测试用例添加显示名称。
根据需要添加用户输入和代理预期文本。点击 + 添加用户输入和 + 添加代理预期以添加回答。点击 + 添加对话轮次，向测试用例添加新的对话轮次。
点击创建，将黄金测试用例添加到测试用例列表中。

如需在场景测试用例中根据模拟对话创建测试用例，请执行以下操作：

前往评估运行结果页面。
点击所选对话右侧的菜单图标（三个竖点），然后点击另存为黄金对话。

如需从文件中批量上传测试用例，请执行以下操作：

如需详细了解文件格式和 CSV 模板，请参阅黄金测试用例 CSV 格式页面。

黄金预期

为了执行评估，您需要为黄金测试用例定义预期结果。预期是指您在对话的特定时间点对智能体做出的具体结果预期。在评估期间，我们会将实际的代理行为与这些预期进行比较。

预期可以是以下类型之一：

消息：代理向最终用户发送的预期文本响应。评估会检查代理的回答是否在语义上符合此预期。
工具调用：一种预期，即代理调用特定工具并做出响应。您还可以为工具调用指定预期输入实参。
客服人员切换：一种预期，即智能体将对话转交给人工客服或其他机器人。

如需创建预期，请执行以下操作：

点击某个黄金测试用例即可打开其详细信息。
在详细信息部分中，点击查看黄金标准。
按照界面说明添加或修改预期。

评估设置

在测试用例列表的标题行中，您可以配置评估设置：

金毛寻回犬：
- 黄金通过/失败标准：设置模拟对话是否通过的逻辑。
- 回合级规则：这些规则用于判断每个回合。如果未达到任何一个阈值，相应指标将以红色表示失败。
  - 语义相似度：语义相似度的阈值。
  - 工具正确性：工具正确性的阈值。
  - 幻觉：如果停用，则在通过/失败判定中排除幻觉。
- 预期水平：这些规则用于判断回合内的预期。如果未达到任何一个阈值，相应指标将以红色表示失败。
  - 工具正确性：工具正确性的阈值。
- 黄金运行方法：选择简单重放验证或稳定重放验证。
- 工具伪造：使用模拟数据，而不是真实的生产 API 调用。
Scenarios：
- 场景通过/失败标准：设置模拟对话是通过还是失败的逻辑。
- 对话发起者：设置对话发起者，可以是用户或模型。
- 工具伪造：使用模拟数据，而不是真实的生产 API 调用。
音频评估
- 音频评估录音

运行评估

如需运行评估，您可以点击测试用例行中的“运行”按钮，也可以选择多个测试用例并运行它们。

如果您已保存多个版本，可以选择要使用的代理版本，也可以自动将代理草稿另存为新版本以供运行。

评估运行后，系统会更新指标并显示结果。

如果您点击某个特定运行评估，则可以查看相应运行的详细结果。除了标准指标外，还会显示以下指标：

失败的圈数
所有对话轮次详情的分页列表，包括实际的智能体回答和预期的智能体回答。

对于黄金测试用例，您可能会看到“稳定重放”一词，该词说明测试是在一致的环境中运行的（即没有上下文/输入变化）。

使用 AI 改进测试用例（预览版）

您可以选择使用 AI 来帮助排查运行问题，并建议改进代理质量的方法。当运行次数（运行计数）达到 3 次或更多时，AI 建议效果最佳。如需启用 AI，请选择要评估的测试用例，然后点击运行所选内容。在弹出的窗口中，勾选通过 AI 查找问题旁边的复选框。

运行完成后，您会在结果页面上看到基于 AI 的建议。 Gemini 会自动生成可下载的 loss_report，其中总结了代理的效果，并突出了可以改进的方面。

任何用户都可以查看 AI 建议的修复，但只有发起运行的用户才能根据结果采取行动。

点击 Ask Gemini 与辅助代理互动。您首先会看到损失报告，其中说明了模型或代理的高级问题。您可以让帮助代理解释报告，它会总结报告内容，并可能建议修复措施。应用修复后，您可以让帮助代理再次运行评估。

指标

每个测试用例结果都包含一组指标，用于衡量代理在所选测试用例中的表现。指标在对话轮次级或预期（对话）级计算，具体取决于控制台中的指示。

在所有情况下，您都可以在评估标签页的设置菜单中自定义运行通过所需的值。

工具正确性

针对黄金和场景测试用例计算。此指标反映了在给定预期工具调用及其预期参数值的情况下，匹配的预期参数所占的百分比。未命中的工具调用得分为 0，没有输入参数的工具调用（如果存在）得分为 1。如果在黄金评估期间进行了意外的工具调用，结果将被视为失败，但这不会影响工具正确性值。

用户目标达成情况

针对方案计算。用户目标达成情况是一种二元指标，专为用户模拟评估而设计。它用于衡量模拟用户是否认为自己实现了目标（0=否，1=是）。输入是模拟用户配置和对话转写中定义的 user_goal。如果提供的 user_goal 未指定明确或隐含的目标，则输出得分为 -1。

幻觉

适用于黄金和场景测试用例。系统会针对每个生成的对话轮次计算幻觉分数。此指标反映了智能体是否做出了其上下文无法证明的声明（0=否，1=是）。上下文由对话中的任何先前轮次、会话变量、工具调用和智能体指令组成。此指标仅针对包含工具调用的对话轮次进行计算。它不会检测工具调用中的幻觉；作为上下文提供的工具调用被认为是正确的。为了尽量减少误报，如果回答不包含事实性声明或仅包含已确立的常识，该指标可能会返回“不适用”得分。

您可以在评估设置中启用和停用幻觉检测功能。

语义匹配

针对 golden 测试用例计算。此指标用于衡量观察到的智能体话语与预期智能体话语的匹配程度。语义匹配是在对话轮次级别计算的。返回值范围为 0（完全不一致或矛盾）到 4（完全一致）。

场景预期

针对方案计算。此指标用于衡量模拟用户对代理行为的满意度（0 表示不满意，1 表示满意）。系统支持两种类型的模拟用户预期：

工具调用预期：计算方式与工具调用正确性类似，但有以下例外情况：
- 结果为 0（否）或 1（是）。
- 意外的工具调用不会受到惩罚。预期旨在指定一组工具调用，这些工具调用对于对话满足模拟用户的预期至关重要。
- 当满足工具调用输入预期时，系统会在运行时拦截该调用并将其替换为模拟返回值。
智能体回答预期：检查对话中的任何智能体回答是否包含预期字符串。

任务完成情况

针对方案计算。任务完成度是衡量对话质量的指标。它共同衡量用户是否实现了目标，以及代理的行为是否正确。其定义如下：

User_Goal_Satisfied AND no_hallucinations_detected AND Expectations Satisfied

角色

角色是模拟的用户角色，您可以自定义这些角色，并将其用于通过场景测试用例进行代理测试。此功能有助于确保代理在运行时与可能会遇到的人类用户类型进行适当的互动。

如果您未选择角色，系统会为每个方案结果随机选择一个角色。

此功能可用于文本输入和音频输入。

设定一个角色

如需创建买方角色，请前往评估标签页，然后点击买方角色管理（位于“设置”图标旁边）。
点击 + 添加角色。
在随即显示的菜单中，输入名称、用户个性以及任何其他用户背景信息（例如年龄、位置、来电原因等）。
点击添加。

如需使用角色运行评估，请执行以下操作：

返回到主评估页面，然后选择一个或多个情景测试用例。点击运行所选内容。
在随即显示的窗口中，从角色下拉菜单中选择您刚刚创建的角色，然后点击运行。

评估 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

评估概念

创建测试用例

场景

场景用户目标

方案变量

场景预期

金色

黄金预期

评估设置

运行评估

使用 AI 改进测试用例（预览版）

指标

工具正确性

用户目标达成情况

幻觉

语义匹配

场景预期

任务完成情况

角色

设定一个角色

评估