摘要自動評估

摘要自動評估 (自動評估) 是擺脫手動試算表式 QA,轉向自動化、可擴充的摘要模型驗證的關鍵。這項功能提供實證資料,有助於升級模型版本或驗證自訂提示變更。

在自動評估功能推出前,驗證摘要模型需要人工閱讀轉錄稿,並手動評估摘要內容,這個過程緩慢、昂貴且主觀。摘要自動評估功能可透過下列方式,提升摘要模型驗證作業的品質:

  • 規模:約 20 至 30 分鐘內評估數百次對話。
  • 一致性:以 LLM 為基礎的評估人員會評估準確度、遵循程度和完整性。
  • 比較:並列顯示證據,證明模型 A 的成效優於模型 B。

事前準備

  • 如要執行評估,您需要摘要產生器 (模型設定) 和資料集 (對話)。
  • 如要使用 Customer Experience Insights 資料集,但尚未建立資料集,請前往 Customer Experience Insights 控制台。如果只有原始轉錄稿檔案,請先轉換為支援的格式,再上傳檔案。

這兩個資料來源

您可以透過下列兩種方式擷取對話資料。

來源類型 最適合用於... 運作方式
Agent Assist 儲存空間 正式/正式環境流量 選取日期範圍和樣本大小。摘要自動評估功能會從系統儲存的實際流量中隨機取樣。
對話洞察資料集 測試特定情境 選取在 Customer Experience Insights 中建立的精選資料集。這項功能最適合用於黃金集或特定測試案例。

步驟 1:建立產生器

  1. 前往「評估」,然後按一下「新增評估」
  2. 輸入下列詳細資料:
    • 顯示名稱:使用包含模型版本和日期的命名慣例。
    • 功能:選取「摘要」
    • 產生器:選取要測試的特定產生器。

步驟 2:建立對話資料集

選取下列其中一個摘要資料來源。

  • 為所有對話生成新的摘要:建議用於測試新模型版本。
  • 只從資料集生成缺少的摘要:如果並非所有對話轉錄稿都有對應的摘要 (根據上一個步驟選取的生成器),建議使用這項功能。
  • 使用資料集中的現有摘要。不要產生摘要:建議用於評估已產生的內容,無須重新生成,或比較不同摘要生成器的成效。

步驟 3:選擇 Cloud Storage 資源

在 bucket 中選擇 Cloud Storage 資料夾,用於儲存結果。

Agent Assist 控制台會顯示高階結果,您可以將詳細的逐列資料匯出為 CSV 檔案。這是深入排解問題的可靠資訊來源。

步驟 4:解讀指標

執行完畢後,您會看到評分表,其中列出各項評估指標的分數。

下鑽

點選任一對話資料列,即可查看下列詳細資料:

  • 轉錄稿 (含原始對話)
  • 摘要候選人
  • 特定分數的摘要自動評估說明

步驟 5:使用比較模式

您可以選取兩個不同的評估執行作業並加以比較。比較相同資料集的評估模型,確保您比較的是相同資訊。如果變更執行作業之間的資料集,比較結果會無效。請務必驗證中繼資料中的資料集 ID 是否相符。

請按照下列步驟查看將摘要模型升級至最新版本的證據。

  1. 使用目前模型執行評估 A。
  2. 使用最新模型,對相同資料集執行評估 B。
  3. 在清單中選取這兩項評估,然後按一下「比較」

Agent Assist 控制台會醒目顯示較高的分數。

疑難排解提示和最佳做法

  • 上傳自己的原始文字檔案以供評估。首先,請建立客戶體驗洞察資料集
  • 控制台會顯示「簡要情況」部分,但摘要文字會將其列為第二項。側欄的順序可能與文字生成順序不完全一致。如要取得明確的結構,請參考文字內容和 CSV 匯出內容。
  • 關於自動評分。這些網站值得信任,但請務必驗證。自動評估模型經過校正,可模擬人為互動,但仍有極端情況。請務必使用 Cloud Storage CSV 匯出功能,手動稽核一小部分樣本,以建立對自動化分數的信任感。