Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

代理評估

本文說明如何使用代理程式評估功能，評估及提升代理程式的效能、安全性和品質。

如要進一步瞭解模型評估，請參閱 Gen AI Evaluation Service 總覽。

程序摘要

評估作業會遵循結構化的疊代工作流程：

定義評估案例：評估案例是定義服務專員工作的規格。評估案例可包含一或多個對話步驟、對話情境 (服務專員的狀態)，以及在推論期間模擬使用者回應的規格。
執行推論：推論是指執行評估案例。如果評估案例包含對話計畫，系統會在推論期間模擬使用者回應。
產生追蹤記錄：每次推論執行都會擷取代理程式的行為，並記錄在追蹤記錄中。追蹤記錄是代理行為的不可變更事實記錄，包括模型輸入內容、回覆和工具呼叫。
計算指標：指標是使用預先建構或自訂評估人員，為每項追蹤記錄計算的分數。部分指標 (例如完全相符) 屬於參考指標，需要評估案例和參考答案。其他指標 (例如「實用性」) 則不含參照，會自行評估追蹤記錄。這項自動評估功能可讓您評估從正式環境流量或外部記錄擷取的追蹤記錄，不必使用受管理測試環境。
進行分析：分析指標、評量標準和判決，找出重要的代理程式問題，將代理程式問題連結回測試案例，並產生改善洞察資料。
最佳化代理程式：使用最佳化功能管理整個評估週期。這項自動化程序會分析結果、建議如何改善代理程式，並反覆重新執行程序，確認效能提升。

您可以將評估程序整合至工作流程的兩個主要階段：

即使沒有現有的測試資料，您也可以透過代理程式評估功能建立初步的評估套件。下列功能有助於自動產生測試案例，並改善代理式系統：

情境生成和使用者模擬：根據代理程式的指令和工具定義，自動生成多種多輪合成測試情境。這項自動化功能可免除手動撰寫初始測試案例的需要，讓您立即開始測試。
環境模擬：攔截特定工具呼叫，插入自訂行為、模擬資料或模擬錯誤 (例如 HTTP 503 錯誤或延遲尖峰)。這項模擬功能可讓您驗證代理程式的復原能力，而不影響實際後端。
多輪評估：使用多輪自動評估人員，自動評估整個對話記錄。這些評估人員會分析意圖擷取情形、動態生成評分量表，並提供客觀的驗證結果，協助確保模型遵循指令。
提示最佳化：透過程式輔助方式，使用提示最佳化功能生成並驗證精簡的系統指令。最佳化框架會找出失敗點，並反覆建議目標更新。