摘要自動評估指標

摘要自動評估 (自動評估) 功能會使用生成式 AI,根據準確度、完整性和一致性,評估 AI 生成摘要的品質。

有時,遵循度和完整度分數會顯示「不適用」

  • 系統只會評估使用自訂區段的摘要。如果摘要使用預先建立的章節,分數會顯示「不適用」
  • 完整度只會評估含有任意形式文字的非類別摘要。如果摘要使用類別值,則分數為「不適用」

準確率

準確度會評估摘要與對話轉錄稿事實細節的相符程度。自動評估功能會為每個摘要判斷正確百分比,並提供相應的理由。如果準確度分數偏低,表示摘要中存在事實問題。

準確度結果如下所示:

{
  "decomposition": [
    {
        "point": "The customer wants to cancel their subscription.",
        "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.",
        "is_accurate": true
    },
    {
        "point": "The customer asks about a $30 credit.",
        "accuracy": "This is inaccurate. The customer mentioned $10.",
        "is_accurate": false
    }
  ]
}
  • 上例中的每個 point 都是摘要的分解部分。二元參數 is_accurate 會顯示準確度評估結果。accuracy 參數則會提供理由。

遵守

摘要自動評估會根據一組問題評估提供的摘要。自動評估功能會根據這些問題和對話轉錄稿,評估摘要是否符合每項指示。不過,摘要自動評估功能採用 Gemini,可能無法準確驗證文法指令。因此,摘要自動評估功能可能無法準確評估摘要是否符合文法指示。

如果摘要的遵守程度分數偏低,表示摘要未遵守摘要部分定義中提供的指示。只有使用自訂部分的摘要才能產生遵守程度分數。

就一致性而言,摘要自動評估功能可辨識下列兩種摘要工作:

  • 類別摘要:提供操作說明中定義的類別值。例如,指令要求「晴天」或「陰天」的回覆。自動評估會檢查提供的摘要是否只有「晴天」或「陰天」,而沒有描述文字。
  • 非類別摘要:提供任意形式的文字。自動評估會檢查非類別摘要是否遵循工作說明中定義的指示。

結果如下所示:

(Categorical):
{
  "rubrics": [
    "question": "Does the summary follow the instruction and return only one of the allowed categorical values?",
    "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.",
    "is_addressed": "False"
  ]
}
(Noncategorical):
{
  "rubrics": [
    {
      "question": "Does the summary follow the instruction 'State the product name being returned'?",
      "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.",
      "is_addressed": "True"
    }
  ]
}
  • 每個問題都是根據提供的摘要部分定義而來。二進位參數 is_addressed 會顯示遵守情況評估結果。reasoning 參數會提供原因。

  • 如果任何問題與目標不一致,表示該目標的摘要部分定義不清楚。您可以瞭解問題,並改善章節定義。

完整度

根據 AI 生成摘要的章節定義中的指示,摘要自動評估功能會套用評量表,評估摘要的完整性。如果分數偏低,表示摘要遺漏了轉錄稿中的重要資訊。

以下是完整度結果的範例:

[
  {
        'question': "Does the summary follow 'Describe the specific actions the agent took to assist the customer with their issue  or request'?",
        'content_list': [
    {
        'transcript_content': 'The agent provided the customer with the arrival window for the ABC appointment.',
        'related_content_from_summary': 'The agent, Robyn, provided the customer with the arrival window for the ABC appointment, which is from 01:30 PM to 2:45 PM.',
        'is_covered': 'True'
    },
    {
        'transcript_content': 'The agent clarified that the arrival window information is sent via text message.',
        'related_content_from_summary': 'The agent also clarified that the arrival window information is sent via text message',
        'is_covered': 'True'
    },
    {
        'transcript_content': "The agent confirmed the phone number is 123-456-7890.",
        'related_content_from_summary': "and confirmed the phone number is 123-456-7890.",
        'is_covered': 'True'
    } ]
  },
  {
        'question': "Does the summary follow 'Identify any dates explicitly mentioned by the agent or the customer'?",
        'content_list': [
    {
        'transcript_content': 'The ABC appointment is on June 2nd.',
        'related_content_from_summary': '',
        'is_covered': 'False'
    } ]
  },
  {
        'question': "Does the summary follow 'Identify the brand and any relevant specifications mentioned in the conversation'?",
        'content_list': [
    {
        'transcript_content': 'The appointment is for a Google Pixel.',
        'related_content_from_summary': '',
        'is_covered': 'False'
    } ]
  },
  {
        'question': "Does the summary follow 'Describe any updates the agent made, such as price, address, or order updates'?",
        'content_list': []
  },
  {
        'question': "Does the summary follow 'Extract the customer's order number and include it in the summary'?",
        'content_list': []
  }
]

上述範例呈現下列情境:

  • 如果摘要涵蓋轉錄稿中的相關內容,二進位參數 is_covered 會設為 True
  • 如果摘要未涵蓋轉錄稿中的相關內容,related_content_from_summary 參數會包含空字串,表示摘要未擷取相關重點。這會降低最終分數和該評量表完整度分數。此外,二進位參數 is_covered 會設為 False
  • 如果轉錄稿中沒有與問題相關的內容,則 content_list 參數會包含空白清單,這不會影響摘要。最終匯總分數不會納入這個案例。

範例中的每個問題都是根據提供的任務說明衍生而來。轉錄稿中的相關資訊會做為 transcript_content 參數的值。二進位參數 is_covered 會顯示這個特定重點的完整度結果,而 related_content_from_summary 則會顯示證明。如果任何問題與目標不符,表示摘要的章節定義不清楚。請瞭解問題並改善章節定義。