总结自动评估(自动评估)会根据三个指标(准确性、完整性和一致性)来评估总结的质量。此功能可帮助您评估总结生成器的质量,这对于调整自定义部分定义或升级影响总结模型的软件至关重要。如需详细了解评估指标,请参阅摘要自动评估基础知识。
准备工作
- 创建摘要生成器,以生成用于评估的候选摘要。
- 生成器中的部分定义用作评估的标准答案。
- 为了使最终得分反映生成器的质量,每个部分的说明都必须与生成器中的说明一致。
创建总结自动评估请求
请按照以下步骤创建总结生成器。
前往 Agent Assist 控制台并登录。
选择您的项目。
依次点击评估 > 新建评估。
输入唯一的显示名称,然后选择与候选人摘要匹配的生成器。
点击下一步。
选择评估数据集,您可以选择以下两种方式之一:
- 指定日期范围内的随机对话样本:如果您已付费购买 Agent Assist 总结功能,请指定日期范围和对话数量上限。评估会从您的历史记录中随机选择最多指定数量的对话和摘要。
- 选择特定数据集:选择您使用对话洞见精心挑选的特定对话样本。
从以下选项中选择摘要来源:
点击下一步。
点击选择文件夹,选择存储桶中用于存储结果的 Cloud Storage 文件夹,然后点击确定。自动评估会写入 CSV 文件,并将其保存到您的 Cloud Storage 存储桶中。
点击运行。这是一项长时间运行的操作。您的新评估会显示在表格中。
评估结果
按照以下步骤查看总结生成器列表和已完成的评估会话运行。
- 前往 Agent Assist 控制台并登录。 前往控制台
- 选择您的项目。
- 点击评估。
- 可选:如需切换创建时间顺序,请点击创建时间列标题中的keyboard_arrow_down 向下。
过滤列表
如需过滤列表以搜索特定评估,请按以下步骤操作:
- 点击过滤评估。
请从下列选项中选择一项:
- 显示名
- 生成器名称
- 创建时间
输入参数的值。
删除评估
- 等待生成器完成评估。
- 点击删除 删除以清除评估。
查看评估结果
如需在 Agent Assist 控制台中查看详细的评估结果,请按以下步骤操作。
- 前往 Agent Assist 控制台并登录。 前往控制台
- 选择您的项目。
- 点击评估。
- 点击列表中的任意一行,即可查看评估详情,其中包含以下信息:
- 生成器的显示名称
- 对话数量
- 如果有任何对话洞见数据集,则为关联的对话洞见数据集的名称
- 运行时间
- Cloud Storage 输出
- 整个数据集的总体效果结果
- 数据集中每个对话的对话级结果
对话级结果
Agent Assist 会在表格中显示对话级评估结果。
- 在评估详情页面中,点击对话级结果表格中的任意一行,即可查看详细结果、摘要和对话转写内容。
- 点击某个部分,即可查看摘要中该部分的示例。
结果比较
如需比较不同评估的结果,请按以下步骤操作:
- 在 Agent Assist 控制台中,前往评估。
- 点击相应评估即可查看其详细信息。此评估可作为比较的基础,并确定比较中包含哪些指标。
- 点击比较 > 添加跑步,添加其他评估以进行比较。您一次最多可比较 5 个评估。每个显示名称都以灰色突出显示。
- 如需从比较中移除评估,请点击关闭图标 关闭。
比较总结生成器版本
您还可以使用总结自动评估功能来比较不同版本的总结生成器的总结。您需要一组对话转写内容。
以下示例展示了如何比较基于摘要生成器 v4.0 和 v5.0 的评估结果。
第 1 步:创建新的总结生成器版本
如果您尚未使用总结生成器,请按照说明创建一个使用总结版本 4.0 的总结生成器。然后,按照以下步骤创建使用总结版本 5.0 的第二个生成器:
- 前往 Agent Assist 控制台 > 总结页面。
- 依次点击生成器的 more_vert > Duplicate generator > 生成器副本的名称。
- 对于版本,选择 5.0,然后点击保存。
第 2 步:创建数据集
按照说明创建数据集,其中最多包含 100 个对话。每次评估最多可以创建 100 个对话。
第 3 步:创建总结评估
请按照以下步骤创建每次评估。
- 前往 Agent Assist 控制台,登录并选择您的项目。
- 依次点击评估 > 新建评估。
- 输入唯一的显示名称。
- 选择您的总结 4.0 生成器。
- 点击下一步。
- 选择选择特定数据集。
- 选择生成摘要。
- 依次点击下一步 > 选择文件夹。
- 选择存储桶中的一个 Cloud Storage 文件夹来存储结果,然后点击确定。自动评估会写入 CSV 文件,并将其保存到您的 Cloud Storage 存储桶中。
- 点击运行。这是一项长时间运行的操作。您的新评估会显示在表格中。
针对总结 5.0 生成器重复执行第 2-10 步,并使用相同的数据集。
第 4 步:比较评估结果
按照相关说明比较结果。 Agent Assist 会显示两次评估结果的比较情况。如果某个生成器的得分高于另一个生成器,则较高的得分会以绿色突出显示。如果两个生成器的得分相同,则这两个生成器也会以绿色突出显示。
限制
总结自动评估不支持 VPC Service Controls。
可用区域
总结自动评估功能仅在三个 Agent Assist 区域提供。如需查看每个功能可用的区域列表,请参阅区域化表。