Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

代理評估

這份文件說明如何使用代理程式評估功能，評估及提升代理程式的效能、安全性和品質。

如要進一步瞭解模型評估，請參閱 Gen AI Evaluation Service 總覽。

程序摘要

評估作業會遵循結構化的疊代工作流程：

定義評估案例：評估案例是定義代理程式工作的規格。評估案例可包含一或多個對話步驟、對話情境 (服務專員的狀態)，以及在推論期間模擬使用者回應的規格。
執行推論：推論是指執行評估案例。如果評估案例包含對話計畫，系統會在推論期間模擬使用者回應。
產生追蹤記錄：每次推論執行都會擷取代理程式的行為，並記錄在追蹤記錄中。追蹤記錄是代理行為的不可變更事實記錄，包括模型輸入內容、回覆和工具呼叫。
計算指標：指標是使用預先建構或自訂評估人員，為每項追蹤記錄計算的分數。部分指標 (例如完全相符) 屬於參考指標，需要評估案例和參考答案。其他指標 (例如「實用性」) 則不含參照，會單獨評估追蹤記錄。這項自動評估功能可讓您評估從正式環境流量或外部記錄擷取的追蹤記錄，不必使用受管理測試環境。
進行分析：分析指標、評量標準和判決，找出重要的代理程式問題，將代理程式問題連結回測試案例，並產生改善洞察資料。
最佳化代理程式：使用最佳化功能管理整個評估週期。這項自動化程序會分析結果、建議如何改善代理程式，並反覆重新執行程序，確認效能提升。

您可以將評估程序整合至工作流程的兩個主要階段：

即使沒有現有的測試資料，您也可以透過代理程式評估功能建立初步的評估套件。下列功能有助於自動產生測試案例，並改善代理式系統：

生成情境和模擬使用者：根據代理的指令和工具定義，自動生成多種多輪合成測試情境。這項自動化功能可免除手動撰寫初始測試案例的需要，讓您立即開始測試。
環境模擬：攔截特定工具呼叫，插入自訂行為、模擬資料或模擬錯誤 (例如 HTTP 503 錯誤或延遲尖峰)。這項模擬功能可讓您驗證代理程式的復原能力，而不影響實際後端。
多輪對話評估：使用多輪對話自動評估器，自動評估整個對話記錄。這些評估人員會分析意圖擷取結果、動態生成評分量表，並提供客觀的驗證結果，確保模型遵循指示。
提示最佳化：使用提示最佳化功能，透過程式輔助方式生成並驗證經過修正的系統指令。最佳化框架會找出失敗點，並反覆建議目標更新。

如果您使用 Gemini CLI 或其他 AI 程式設計助理，可以安裝 Agent skills，讓助理瞭解本頁面說明的代理程式評估方法。每項技能都會在編碼工作階段中直接提供評估工作流程、資料集結構定義、指標選取指引和失敗分析步驟，因此助理不必離開編輯器，就能建構、評估及改善評估。

安裝說明位於各項技能下方。

以 CLI 驅動的工作流程，可使用 agents-cli eval 指令評估及最佳化 Agent Development Kit (ADK) 代理。這項技能涵蓋的主題包括：

如要安裝，請執行下列指令：

npx skills add https://github.com/google/agents-cli --skill google-agents-cli-eval

透過 SDK 導向的劇本，使用 Agent Platform GenAI Evaluation SDK (client.evals.evaluate())，透過 Agent Platform GenAI Evaluation Service 評估及改善模型和代理。這項技能涵蓋：

如要安裝，請執行下列指令：

npx skills add https://github.com/google/skills --skill agent-platform-eval-flywheel