摘要自动评估

总结自动评估(自动评估)对于摆脱基于电子表格的手动 QA,转而实现总结模型的可伸缩自动化验证至关重要。此功能可提供所需的实证,以便升级模型版本或验证自定义提示更改。

在自动评估之前,验证总结模型需要人工阅读转写内容并手动对总结进行评分,这是一个缓慢、昂贵且主观的过程。总结自动评估通过以下方式改进了总结模型验证:

  • 规模:大约 20 到 30 分钟即可评估数百次对话。
  • 一致性:基于 LLM 的评判器可对准确性、遵循程度和完整性进行评分。
  • 比较:提供并排证据,证明模型 A 的效果优于模型 B。

准备工作

  • 如需运行评估,您需要一个摘要生成器(模型配置)和一个数据集(对话)。
  • 如果您想使用“客户体验分析”数据集,但尚未创建,请前往“客户体验分析”控制台。如果您有原始转写文件,请将其转换为受支持的格式以进行上传。

这两个数据源

您可以通过以下两种方式注入对话数据。

来源类型 最适合... 运作方式
Agent Assist 存储空间 实时/生产环境流量 您选择日期范围和样本规模。总结自动评估功能会从存储在您系统中的实际流量中随机抽样。
对话分析洞见数据集 测试特定场景 您选择在“客户体验数据分析”中创建的精选数据集。此方法最适合用于黄金集或特定测试用例。

第 1 步:创建生成器

  1. 前往评估,然后点击新建评估
  2. 输入以下详细信息:
    • 显示名称:使用包含模型版本和日期的命名惯例。
    • 功能:选择总结
    • 生成器:选择要测试的特定生成器。

第 2 步:创建对话数据集

选择以下某个汇总数据源。

  • 为所有对话生成新的摘要:建议用于测试新模型版本。
  • 仅从数据集中生成缺失的摘要:如果并非所有对话转写内容都具有相应的摘要(基于上一步中选择的生成器),建议选择此选项。
  • 使用数据集中的现有摘要。不生成摘要:建议用于对已生成的内容进行评分,而无需重新生成或比较不同摘要生成器的性能。

第 3 步:选择 Cloud Storage 资源

选择存储桶中的一个 Cloud Storage 文件夹来存储结果。

虽然 Agent Assist 控制台会显示高级别结果,但您可以将详细的逐行数据导出为 CSV 文件。这是深入排查问题的可靠来源。

第 4 步:解读指标

运行完成后,您会看到一个记分卡,其中包含每个评估指标的分数。

展开细目

您可以点击任何特定对话行,查看以下详细信息:

  • 包含原始对话的转写内容
  • 总结候选内容
  • 针对特定得分的总结自动评估说明

第 5 步:使用比较模式

您可以选择两个不同的评估运行,然后进行比较。比较同一数据集的评估模型,确保您比较的是相同的信息。如果您在多次运行之间更改了数据集,则比较无效。请务必验证元数据中的数据集 ID 是否一致。

请按照以下步骤查看将总结模型升级到最新版本的证据。

  1. 使用当前模型运行评估 A。
  2. 使用最新模型在同一数据集上运行评估 B。
  3. 在列表中选择这两个评估,然后点击比较

Agent Assist 控制台突出显示了较高的得分。

问题排查提示和最佳实践

  • 上传您自己的原始文本文件以供评估。首先,创建客户体验数据洞见数据集
  • 控制台会显示“简明情况”部分,但摘要文本会将其列为第二项。边栏顺序可能与文本生成顺序不完全一致。请以文字内容和 CSV 导出内容为准。
  • 自动评分简介。它们值得信赖,但仍需验证。自动评估模型经过校准,可模拟人类互动,但仍存在极端情况。始终使用 Cloud Storage CSV 导出功能手动审核少量样本,以建立对自动化得分的信任。