总结自动评估(自动评估)对于摆脱基于电子表格的手动 QA,转而实现总结模型的可伸缩自动化验证至关重要。此功能可提供所需的实证,以便升级模型版本或验证自定义提示更改。
在自动评估之前,验证总结模型需要人工阅读转写内容并手动对总结进行评分,这是一个缓慢、昂贵且主观的过程。总结自动评估通过以下方式改进了总结模型验证:
- 规模:大约 20 到 30 分钟即可评估数百次对话。
- 一致性:基于 LLM 的评判器可对准确性、遵循程度和完整性进行评分。
- 比较:提供并排证据,证明模型 A 的效果优于模型 B。
准备工作
- 如需运行评估,您需要一个摘要生成器(模型配置)和一个数据集(对话)。
- 如果您想使用“客户体验分析”数据集,但尚未创建,请前往“客户体验分析”控制台。如果您有原始转写文件,请将其转换为受支持的格式以进行上传。
这两个数据源
您可以通过以下两种方式注入对话数据。
| 来源类型 | 最适合... | 运作方式 |
| Agent Assist 存储空间 | 实时/生产环境流量 | 您选择日期范围和样本规模。总结自动评估功能会从存储在您系统中的实际流量中随机抽样。 |
| 对话分析洞见数据集 | 测试特定场景 | 您选择在“客户体验数据分析”中创建的精选数据集。此方法最适合用于黄金集或特定测试用例。 |
第 1 步:创建生成器
- 前往评估,然后点击新建评估。
- 输入以下详细信息:
- 显示名称:使用包含模型版本和日期的命名惯例。
- 功能:选择总结。
- 生成器:选择要测试的特定生成器。
第 2 步:创建对话数据集
选择以下某个汇总数据源。
- 为所有对话生成新的摘要:建议用于测试新模型版本。
- 仅从数据集中生成缺失的摘要:如果并非所有对话转写内容都具有相应的摘要(基于上一步中选择的生成器),建议选择此选项。
- 使用数据集中的现有摘要。不生成摘要:建议用于对已生成的内容进行评分,而无需重新生成或比较不同摘要生成器的性能。
第 3 步:选择 Cloud Storage 资源
选择存储桶中的一个 Cloud Storage 文件夹来存储结果。
虽然 Agent Assist 控制台会显示高级别结果,但您可以将详细的逐行数据导出为 CSV 文件。这是深入排查问题的可靠来源。
第 4 步:解读指标
运行完成后,您会看到一个记分卡,其中包含每个评估指标的分数。
展开细目
您可以点击任何特定对话行,查看以下详细信息:
- 包含原始对话的转写内容
- 总结候选内容
- 针对特定得分的总结自动评估说明
第 5 步:使用比较模式
您可以选择两个不同的评估运行,然后进行比较。比较同一数据集的评估模型,确保您比较的是相同的信息。如果您在多次运行之间更改了数据集,则比较无效。请务必验证元数据中的数据集 ID 是否一致。
请按照以下步骤查看将总结模型升级到最新版本的证据。
- 使用当前模型运行评估 A。
- 使用最新模型在同一数据集上运行评估 B。
- 在列表中选择这两个评估,然后点击比较。
Agent Assist 控制台突出显示了较高的得分。
问题排查提示和最佳实践
- 上传您自己的原始文本文件以供评估。首先,创建客户体验数据洞见数据集。
- 控制台会显示“简明情况”部分,但摘要文本会将其列为第二项。边栏顺序可能与文本生成顺序不完全一致。请以文字内容和 CSV 导出内容为准。
- 自动评分简介。它们值得信赖,但仍需验证。自动评估模型经过校准,可模拟人类互动,但仍存在极端情况。始终使用 Cloud Storage CSV 导出功能手动审核少量样本,以建立对自动化得分的信任。