このドキュメントでは、エージェント評価を使用してエージェントのパフォーマンス、安全性、品質を測定し、改善する方法について説明します。
モデル評価の詳細については、Gen AI Evaluation Service の概要をご覧ください。
手順の概要
| フェーズ | アクティビティ | 目標 |
|---|---|---|
| デザイン | 評価ケースを定義する | エージェントのタスクと期待される結果を指定します。 |
| 実行 | 推論を実行する | 現実世界の会話トレースまたはシミュレートされた会話トレースを生成します。 |
| スコア付け | 指標を計算する | 自動評価ツール(タスクの成功、安全性)を使用してトレースを評価します。 |
| 絞り込み | エージェントを最適化する | 手順やツールの改善を提案して検証します。 |
評価プロセス
評価は、構造化された反復ワークフローに従って行われます。
- 評価ケースを定義する: 評価ケースは、 エージェントのタスクを定義する仕様です。評価ケースには、1 つ以上の会話ステップ、会話コンテキスト(エージェントの状態)、推論中のユーザー レスポンスをシミュレートするための仕様を含めることができます。
- 推論を実行する: 推論は、評価ケースの実行です。評価ケースに会話プランが含まれている場合、推論中にユーザー レスポンスがシミュレートされます。
- トレースを生成する: 推論を実行するたびに、エージェントの動作が トレースにキャプチャされます。トレースは、モデルの入力、レスポンス、ツール呼び出しなど、エージェントの動作の事実に基づいた不変の記録です。
- 指標を計算する: 指標は、 事前構築済みまたはカスタムの評価ツールを使用して、各トレースに対して計算されるスコアです。完全一致などの一部の指標は 参照ベースであり、参照回答を含む評価ケースが必要です。 **有用性** などの指標は参照なしで、トレース自体を評価します。この自動評価により、マネージド テスト環境に関係なく、本番環境のトラフィックまたは外部ログからキャプチャされたトレースをスコア付けできます。
- 分析を実施する: 指標、ルーブリック、判定を分析して、 エージェントの主な問題を特定し、エージェントの問題をテストケースに関連付け、 改善のための分析情報を生成します。
- エージェントを最適化する: 最適化を使用して、 評価サイクル全体を管理します。この自動プロセスでは、結果を分析し、エージェントの改善を提案し、プロセスを繰り返し再実行してパフォーマンスの向上を検証します。
評価ワークフロー
評価は、ワークフローの次の 2 つの主要な段階に統合できます。
- ローカル開発のイテレーション: Agent Development Kit(ADK)ベースの エージェントをローカルで評価して、プロンプト エンジニアリングとツール 構成を迅速に反復します。
- デプロイされたエージェントの評価: デプロイされたエージェントの品質を、 過去のトレースを分析するか、エージェント エンドポイントに対して合成ベンチマークを実行して測定します。
中核となる機能
エージェント評価は、既存のテストデータがない場合でも、初期評価スイートの構築に役立ちます。次の機能は、テストケースの生成とエージェント型システムの絞り込みのプロセスを自動化するのに役立ちます。
シナリオの生成とユーザー シミュレーション: エージェントの手順とツールの定義に基づいて、 多様なマルチターン合成テスト シナリオを自動的に生成します。この自動化により、初期テストケースを手動で作成する必要がなくなり、すぐにテストを開始できます。
環境シミュレーション: 特定のツール呼び出しをインターセプトして、 カスタム動作、モックデータ、シミュレートされたエラー(HTTP 503 エラーやレイテンシの急増など)を挿入します。このシミュレーションを使用すると、本番環境のバックエンドに影響を与えることなく、エージェントの復元力を検証できます。
マルチターン評価: マルチターン自動評価ツールを使用して、会話履歴全体を自動的に評価します。これらの評価ツールは、インテント抽出を分析し、ルーブリックを動的に生成し、客観的な検証判定を提供して、手順の遵守を確保します。
プロンプトの最適化: プロンプトの最適化を使用して、絞り込まれた システム手順をプログラムで生成して検証します。最適化フレームワークは障害点を特定し、ターゲットを絞った更新を繰り返し提案します。
AI コーディング アシスタントで評価する
Gemini CLI または別の AI コーディング アシスタントを使用している場合は、このページで説明されているエージェント評価方法をアシスタントに教えるエージェント スキルをインストールできます。各スキルは、コーディング セッションで評価ワークフロー、データセット スキーマ、指標選択のガイダンス、障害分析の手順を直接提供するため、アシスタントはエディタを離れることなく評価を構築、評価、改善できます。
インストール手順は各スキルの後に記載されています。
Agents CLI 評価スキル
agents-cli eval コマンドを使用して、Agent Development Kit(ADK)エージェントを評価して最適化する CLI ドリブン ワークフロー。このスキルは次のことを対象としています。
- 評価データセットの準備と、ユーザー シミュレーションを使用したマルチターン シナリオの合成
- 推論の実行、トレースの評価、障害クラスタの分析
- eval-fix ループを使用したプロンプトとツールの反復
インストールするには、次のコマンドを実行します。
npx skills add https://github.com/google/agents-cli --skill google-agents-cli-eval
Agent Platform GenAI Evaluation Service フライホイール スキル
Agent Platform GenAI Evaluation SDK(client.evals.evaluate())を使用して、Agent Platform GenAI Evaluation Service を介してモデルとエージェントを評価して改善する SDK ドリブン プレイブック。このスキルは次のことを対象としています。
- セッション トレース、DataFrame、合成生成から評価データセットを構築する
- LLM-as-judge スコアリングを使用して、カスタム指標を選択、構成、作成する
- ルーブリックの判定と損失パターンを分析して、具体的な改善を推進する
インストールするには、次のコマンドを実行します。
npx skills add https://github.com/google/skills --skill agent-platform-eval-flywheel