代理評估

這份文件說明如何使用代理程式評估功能,評估及提升代理程式的效能、安全性和品質。

如要進一步瞭解模型評估,請參閱 Gen AI Evaluation Service 總覽

程序摘要

階段 活動 目標
設計 定義評估案例 指定代理程式工作和預期結果。
執行作業 執行推論 生成真實或模擬的對話記錄。
評分 計算指標 使用自動評估人員 (工作成功率、安全性) 評估追蹤記錄。
微調 最佳化代理程式 提議並驗證指令或工具的改善項目。

評估程序

評估作業會遵循結構化的疊代工作流程:

  1. 定義評估案例評估案例是定義代理程式工作的規格。評估案例可包含一或多個對話步驟、對話情境 (服務專員的狀態),以及在推論期間模擬使用者回應的規格。
  2. 執行推論推論是指執行評估案例。如果評估案例包含對話計畫,系統會在推論期間模擬使用者回應。
  3. 產生追蹤記錄:每次推論執行都會擷取代理程式的行為,並記錄在追蹤記錄中。追蹤記錄是代理程式行為的不可變更事實記錄,包括模型輸入內容、回覆和工具呼叫。
  4. 計算指標指標是使用預先建構或自訂的評估人員,為每項追蹤記錄計算的分數。部分指標 (例如完全相符) 屬於參考指標,需要評估案例和參考答案。其他指標 (例如「實用性」) 則不需參考,可自行評估追蹤記錄。這項自動評估功能可讓您評估從正式環境流量或外部記錄擷取的追蹤記錄,不必使用受管理的測試環境。
  5. 進行分析:分析指標、評量標準和判決,找出重要的代理程式問題,將代理程式問題連結回測試案例,並產生可供改善的洞察資料。
  6. 最佳化代理程式:使用最佳化功能管理整個評估週期。這項自動化程序會分析結果、建議代理程式進行改善,並反覆重新執行程序,以驗證效能提升。

評估工作流程

您可以將評估作業整合至工作流程的兩個主要階段:

  • 本機開發疊代:在本機評估以 Agent Development Kit (ADK) 為基礎的代理,快速疊代提示工程和工具設定。
  • 已部署的代理評估:分析過往追蹤記錄或針對代理端點執行合成基準,藉此評估已部署代理的品質。

核心功能

即使沒有現有的測試資料,您也能透過代理程式評估功能建立初步的評估套件。下列功能有助於自動生成測試案例,並改善代理式系統:

  • 情境生成和使用者模擬:根據代理的指令和工具定義,自動生成多種多輪合成測試情境。這項自動化功能可免除手動撰寫初始測試案例的需要,讓您立即開始測試。

  • 環境模擬:攔截特定工具呼叫,插入自訂行為、模擬資料或模擬錯誤 (例如 HTTP 503 錯誤或延遲尖峰)。這項模擬功能可讓您驗證代理程式的復原能力,而不影響實際後端。

  • 多輪對話評估:使用多輪對話自動評估器,自動評估整個對話記錄。這些評估人員會分析意圖擷取結果、動態生成評分量表,並提供客觀的驗證結果,確保模型遵循指令。

  • 提示最佳化:透過程式輔助方式,使用提示最佳化功能生成並驗證精簡的系統指令。最佳化架構會找出失敗點,並反覆提議進行目標更新。

後續步驟