摘要自動評估 (自動評估) 功能會使用生成式 AI,根據準確度、完整性和一致性,評估 AI 生成摘要的品質。
有時,遵循度和完整度分數會顯示「不適用」。
- 系統只會評估使用自訂區段的摘要。如果摘要使用預先建立的章節,分數會顯示「不適用」。
- 完整度只會評估含有任意形式文字的非類別摘要。如果摘要使用類別值,則分數為「不適用」。
準確率
準確度會評估摘要與對話轉錄稿事實細節的相符程度。自動評估功能會為每個摘要判斷正確百分比,並提供相應的理由。如果準確度分數偏低,表示摘要中存在事實問題。
準確度結果如下所示:
{ "decomposition": [ { "point": "The customer wants to cancel their subscription.", "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.", "is_accurate": true }, { "point": "The customer asks about a $30 credit.", "accuracy": "This is inaccurate. The customer mentioned $10.", "is_accurate": false } ] }
- 上例中的每個
point都是摘要的分解部分。二元參數is_accurate會顯示準確度評估結果。accuracy參數則會提供理由。
遵守
摘要自動評估會根據一組問題評估提供的摘要。自動評估功能會根據這些問題和對話轉錄稿,評估摘要是否符合每項指示。不過,摘要自動評估功能採用 Gemini,可能無法準確驗證文法指令。因此,摘要自動評估功能可能無法準確評估摘要是否符合文法指示。
如果摘要的遵守程度分數偏低,表示摘要未遵守摘要部分定義中提供的指示。只有使用自訂部分的摘要才能產生遵守程度分數。
就一致性而言,摘要自動評估功能可辨識下列兩種摘要工作:
- 類別摘要:提供操作說明中定義的類別值。例如,指令要求「晴天」或「陰天」的回覆。自動評估會檢查提供的摘要是否只有「晴天」或「陰天」,而沒有描述文字。
- 非類別摘要:提供任意形式的文字。自動評估會檢查非類別摘要是否遵循工作說明中定義的指示。
結果如下所示:
(Categorical): { "rubrics": [ "question": "Does the summary follow the instruction and return only one of the allowed categorical values?", "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.", "is_addressed": "False" ] } (Noncategorical): { "rubrics": [ { "question": "Does the summary follow the instruction 'State the product name being returned'?", "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.", "is_addressed": "True" } ] }
每個問題都是根據提供的摘要部分定義而來。二進位參數
is_addressed會顯示遵守情況評估結果。reasoning參數會提供原因。如果任何問題與目標不一致,表示該目標的摘要部分定義不清楚。您可以瞭解問題,並改善章節定義。
完整度
根據 AI 生成摘要的章節定義中的指示,摘要自動評估功能會套用評量表,評估摘要的完整性。如果分數偏低,表示摘要遺漏了轉錄稿中的重要資訊。
以下是完整度結果的範例:
[ { 'question': "Does the summary follow 'Describe the specific actions the agent took to assist the customer with their issue or request'?", 'content_list': [ { 'transcript_content': 'The agent provided the customer with the arrival window for the ABC appointment.', 'related_content_from_summary': 'The agent, Robyn, provided the customer with the arrival window for the ABC appointment, which is from 01:30 PM to 2:45 PM.', 'is_covered': 'True' }, { 'transcript_content': 'The agent clarified that the arrival window information is sent via text message.', 'related_content_from_summary': 'The agent also clarified that the arrival window information is sent via text message', 'is_covered': 'True' }, { 'transcript_content': "The agent confirmed the phone number is 123-456-7890.", 'related_content_from_summary': "and confirmed the phone number is 123-456-7890.", 'is_covered': 'True' } ] }, { 'question': "Does the summary follow 'Identify any dates explicitly mentioned by the agent or the customer'?", 'content_list': [ { 'transcript_content': 'The ABC appointment is on June 2nd.', 'related_content_from_summary': '', 'is_covered': 'False' } ] }, { 'question': "Does the summary follow 'Identify the brand and any relevant specifications mentioned in the conversation'?", 'content_list': [ { 'transcript_content': 'The appointment is for a Google Pixel.', 'related_content_from_summary': '', 'is_covered': 'False' } ] }, { 'question': "Does the summary follow 'Describe any updates the agent made, such as price, address, or order updates'?", 'content_list': [] }, { 'question': "Does the summary follow 'Extract the customer's order number and include it in the summary'?", 'content_list': [] } ]
上述範例呈現下列情境:
- 如果摘要涵蓋轉錄稿中的相關內容,二進位參數
is_covered會設為True。 - 如果摘要未涵蓋轉錄稿中的相關內容,
related_content_from_summary參數會包含空字串,表示摘要未擷取相關重點。這會降低最終分數和該評量表完整度分數。此外,二進位參數is_covered會設為False。 - 如果轉錄稿中沒有與問題相關的內容,則
content_list參數會包含空白清單,這不會影響摘要。最終匯總分數不會納入這個案例。
範例中的每個問題都是根據提供的任務說明衍生而來。轉錄稿中的相關資訊會做為 transcript_content 參數的值。二進位參數 is_covered 會顯示這個特定重點的完整度結果,而 related_content_from_summary 則會顯示證明。如果任何問題與目標不符,表示摘要的章節定義不清楚。請瞭解問題並改善章節定義。