摘要自動評估 (自動評估) 是擺脫手動試算表式 QA,轉向自動化、可擴充的摘要模型驗證的關鍵。這項功能提供實證資料,有助於升級模型版本或驗證自訂提示變更。
在自動評估功能推出前,驗證摘要模型需要人工閱讀轉錄稿,並手動評估摘要內容,這個過程緩慢、昂貴且主觀。摘要自動評估功能可透過下列方式,提升摘要模型驗證作業的品質:
- 規模:約 20 至 30 分鐘內評估數百次對話。
- 一致性:以 LLM 為基礎的評估人員會評估準確度、遵循程度和完整性。
- 比較:並列顯示證據,證明模型 A 的成效優於模型 B。
事前準備
- 如要執行評估,您需要摘要產生器 (模型設定) 和資料集 (對話)。
- 如要使用 Customer Experience Insights 資料集,但尚未建立資料集,請前往 Customer Experience Insights 控制台。如果只有原始轉錄稿檔案,請先轉換為支援的格式,再上傳檔案。
這兩個資料來源
您可以透過下列兩種方式擷取對話資料。
| 來源類型 | 最適合用於... | 運作方式 |
| Agent Assist 儲存空間 | 正式/正式環境流量 | 選取日期範圍和樣本大小。摘要自動評估功能會從系統儲存的實際流量中隨機取樣。 |
| 對話洞察資料集 | 測試特定情境 | 選取在 Customer Experience Insights 中建立的精選資料集。這項功能最適合用於黃金集或特定測試案例。 |
步驟 1:建立產生器
- 前往「評估」,然後按一下「新增評估」。
- 輸入下列詳細資料:
- 顯示名稱:使用包含模型版本和日期的命名慣例。
- 功能:選取「摘要」。
- 產生器:選取要測試的特定產生器。
步驟 2:建立對話資料集
選取下列其中一個摘要資料來源。
- 為所有對話生成新的摘要:建議用於測試新模型版本。
- 只從資料集生成缺少的摘要:如果並非所有對話轉錄稿都有對應的摘要 (根據上一個步驟選取的生成器),建議使用這項功能。
- 使用資料集中的現有摘要。不要產生摘要:建議用於評估已產生的內容,無須重新生成,或比較不同摘要生成器的成效。
步驟 3:選擇 Cloud Storage 資源
在 bucket 中選擇 Cloud Storage 資料夾,用於儲存結果。
Agent Assist 控制台會顯示高階結果,您可以將詳細的逐列資料匯出為 CSV 檔案。這是深入排解問題的可靠資訊來源。
步驟 4:解讀指標
執行完畢後,您會看到評分表,其中列出各項評估指標的分數。
下鑽
點選任一對話資料列,即可查看下列詳細資料:
- 轉錄稿 (含原始對話)
- 摘要候選人
- 特定分數的摘要自動評估說明
步驟 5:使用比較模式
您可以選取兩個不同的評估執行作業並加以比較。比較相同資料集的評估模型,確保您比較的是相同資訊。如果變更執行作業之間的資料集,比較結果會無效。請務必驗證中繼資料中的資料集 ID 是否相符。
請按照下列步驟查看將摘要模型升級至最新版本的證據。
- 使用目前模型執行評估 A。
- 使用最新模型,對相同資料集執行評估 B。
- 在清單中選取這兩項評估,然後按一下「比較」。
Agent Assist 控制台會醒目顯示較高的分數。
疑難排解提示和最佳做法
- 上傳自己的原始文字檔案以供評估。首先,請建立客戶體驗洞察資料集。
- 控制台會顯示「簡要情況」部分,但摘要文字會將其列為第二項。側欄的順序可能與文字生成順序不完全一致。如要取得明確的結構,請參考文字內容和 CSV 匯出內容。
- 關於自動評分。這些網站值得信任,但請務必驗證。自動評估模型經過校正,可模擬人為互動,但仍有極端情況。請務必使用 Cloud Storage CSV 匯出功能,手動稽核一小部分樣本,以建立對自動化分數的信任感。