Google は AI 技術を使用して、コンテンツをご希望の言語に翻訳しています。AI 翻訳には誤りが含まれる場合があります。

エージェントの評価

このドキュメントでは、エージェント評価を使用してエージェントのパフォーマンス、安全性、品質を測定し、改善する方法について説明します。

モデル評価の詳細については、Gen AI Evaluation Service の概要をご覧ください。

手順の概要

フェーズ	アクティビティ	目標
デザイン	評価ケースを定義する	エージェントのタスクと期待される結果を指定します。
実行	推論を実行する	実際の会話またはシミュレートされた会話のトレースを生成します。
スコア付け	指標を計算する	自動評価ツール（タスクの成功、安全性）を使用してトレースを評価します。
改善	エージェントを最適化する	手順やツールの改善を提案して検証します。

評価プロセス

評価は、構造化された反復ワークフローに従って行われます。

評価ケースを定義する: 評価ケースは、エージェントのタスクを定義する仕様です。評価ケースには、1 つ以上の会話ステップ、会話コンテキスト（エージェントの状態）、推論中のユーザーレスポンスをシミュレートするための仕様を含めることができます。
推論を実行する: 推論は、評価ケースの実行です。評価ケースに会話プランが含まれている場合、推論中にユーザーレスポンスがシミュレートされます。
トレースを生成する: 推論を実行するたびに、エージェントの動作がトレースにキャプチャされます。トレースは、モデルの入力、レスポンス、ツール呼び出しなど、エージェントの動作に関する事実に基づいた不変のレコードです。
指標を計算する: 指標は、事前構築済みまたはカスタムの評価ツールを使用して、各トレースに対して計算されるスコアです。完全一致などの一部の指標は 参照ベースであり、参照回答を含む評価ケースが必要です。 **有用性** などの指標は参照なしで、トレース自体を評価します。この自動評価により、マネージドテスト環境に関係なく、本番環境のトラフィックまたは外部ログからキャプチャされたトレースをスコア付けできます。
分析を実施する: 指標、ルーブリック、判定を分析して、エージェントの主な問題を特定し、エージェントの問題をテストケースに関連付け、改善のための分析情報を生成します。
エージェントを最適化する: 最適化を使用して、評価サイクル全体を管理します。この自動プロセスでは、結果を分析し、エージェントの改善を提案し、プロセスを繰り返し再実行してパフォーマンスの向上を検証します。

評価ワークフロー

評価は、ワークフローの次の 2 つの主要な段階に統合できます。

ローカル開発のイテレーション: Agent Development Kit（ADK）ベースのエージェントをローカルで評価して、プロンプトエンジニアリングとツール構成を迅速に反復します。
デプロイされたエージェントの評価: デプロイされたエージェントの品質を、過去のトレースを分析するか、エージェントエンドポイントに対して合成ベンチマークを実行して測定します。

中核となる機能

エージェント評価は、既存のテストデータがない場合でも、初期評価スイートの構築に役立ちます。次の機能は、テストケースの生成とエージェント型システムの改善のプロセスを自動化するのに役立ちます。

シナリオ生成とユーザーシミュレーション: エージェントの手順とツール定義に基づいて、多様なマルチターンの合成テストシナリオを自動的に生成します。この自動化により、最初のテストケースを手動で作成する必要がないため、すぐにテストを開始できます。
環境シミュレーション: 特定のツール呼び出しをインターセプトして、カスタム動作、モックデータ、シミュレートされたエラー（HTTP 503 エラーやレイテンシの急増など）を挿入します。このシミュレーションにより、本番環境のバックエンドに影響を与えることなく、エージェントの復元力を検証できます。
マルチターンの評価: マルチターンの自動評価ツールを使用して、会話履歴全体を自動的に評価します。これらの評価ツールは、インテント抽出を分析し、ルーブリックを動的に生成し、客観的な検証判定を提供して、手順の遵守を確保します。
プロンプトの最適化: プロンプトの最適化を使用して、洗練されたシステム指示をプログラムで生成して検証します。最適化フレームワークは障害点を特定し、ターゲットを絞った更新を繰り返し提案します。

AI コーディングアシスタントで評価する

Gemini CLI または別の AI コーディングアシスタントを使用している場合は、このページで説明されているエージェント評価方法をアシスタントに教えるエージェントスキルをインストールできます。各スキルは、コーディングセッションで評価ワークフロー、データセットスキーマ、指標選択のガイダンス、障害分析の手順を直接提供するため、アシスタントはエディタを離れることなく評価を構築、評価、改善できます。

インストール手順は各スキルの後に記載されています。

Agents CLI 評価スキル

agents-cli eval コマンドを使用して Agent Development Kit（ADK）エージェントを評価して最適化する CLI ドリブンワークフロー。このスキルでは、次のことを行います。

評価データセットの準備と、ユーザーシミュレーションを使用したマルチターンシナリオの合成
推論の実行、トレースの評価、障害クラスタの分析
eval-fix ループを使用したプロンプトとツールの反復

インストールするには、次のコマンドを実行します。

npx skills add https://github.com/google/agents-cli --skill google-agents-cli-eval

Agent Platform GenAI Evaluation Service フライホイールスキル

Agent Platform GenAI Evaluation SDK（client.evals.evaluate()）を使用して、Agent Platform GenAI Evaluation Service を介してモデルとエージェントを評価して改善する SDK ドリブンプレイブック。このスキルでは、次のことを行います。

セッショントレース、DataFrame、合成生成から評価データセットを構築する
LLM-as-judge スコアリングを使用して、カスタム指標を選択、構成、作成する
ルーブリックの判定と損失パターンを分析して、具体的な改善を行う