摘要自动评估指标

摘要自动评估(自动评估)会根据准确性、完整性和遵循度来评估 AI 生成的摘要的质量。

准确性

准确性用于衡量摘要与对话记录的事实细节的契合程度。对于每个摘要,自动评估都会确定正确率百分比,并提供相应的理由。准确性得分较低意味着摘要中存在事实问题。

准确率结果如下所示:

{
  "decomposition": [
    {
        "point": "The customer wants to cancel their subscription.",
        "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.",
        "is_accurate": true
    },
    {
        "point": "The customer asks about a $30 credit.",
        "accuracy": "This is inaccurate. The customer mentioned $10.",
        "is_accurate": false
    }
  ]
}
  • 上例中的每个 point 都是摘要的分解部分。二进制参数 is_accurate 会显示准确性评估结果。accuracy 参数会提供理由。

遵循度

摘要自动评估会对提供的摘要应用一组问题。自动评估会使用这些问题和对话记录来评估摘要对每条指令的遵循情况。不过,摘要自动评估依赖于 Gemini,而 Gemini 可能无法准确验证语法指令。因此,摘要自动评估可能无法准确评估摘要是否遵循了语法指令。

遵循度得分较低意味着摘要未能遵循摘要部分定义中提供的指令。只有使用自定义部分的摘要才能生成遵循度得分。

对于遵循度,摘要自动评估可识别以下两种类型的摘要任务:

  • 分类摘要:提供指令中定义的分类值。例如,指令要求提供“晴朗”或“多云”的回答。自动评估会检查摘要是否仅提供“晴朗”“多云”,而不包含描述性文本。
  • 非分类摘要:提供自由形式的文本。自动评估会检查非分类摘要是否遵循任务说明中定义的指令。

遵循度结果如下所示:

(Categorical):
{
  "rubrics": [
    "question": "Does the summary follow the instruction and return only one of the allowed categorical values?",
    "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.",
    "is_addressed": "False"
  ]
}
(Noncategorical):
{
  "rubrics": [
    {
      "question": "Does the summary follow the instruction 'State the product name being returned'?",
      "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.",
      "is_addressed": "True"
    }
  ]
}
  • 每个问题都源自提供的摘要部分定义。二进制参数 is_addressed 会显示遵循度评估结果。reasoning 参数会提供理由。

  • 如果有任何问题与您的目标不符,则表示该目标的摘要部分定义不明确。您可以了解问题并改进部分定义。

完整性

摘要自动评估会应用一组评分标准,根据摘要部分定义中的指令来评估 AI 生成的摘要的完整性。完整性得分较低意味着摘要未能包含记录中的重要信息。

完整性结果如下所示:

{
  "rubrics": [
    {
      "question": "Does the summary identify that the customer initially considered cancelling their subscription?",
      "is_addressed": "True"
    },
    {
      "question": "Does the summary identify that the customer inquired about a previously issued credit?",
      "is_addressed": "False"
    },
    {
      "question": "Does the summary mention the specific amount of the credit ($20)?",
      "is_addressed": "False"
    }
  ]
}
  • 每个问题都源自提供的任务说明和记录。二进制参数 is_addressed 会显示评估结果。

  • 如果有任何问题与您的目标不符,则表示摘要的部分定义不明确。了解问题并改进部分定义。