エージェントの評価

このドキュメントでは、エージェント評価を使用してエージェントのパフォーマンス、安全性、品質を測定し、改善する方法について説明します。

モデル評価の詳細については、Gen AI Evaluation Service の概要をご覧ください。

手順の概要

フェーズ	アクティビティ	目標
デザイン	評価ケースを定義する	エージェントのタスクと期待される結果を指定します。
実行	推論を実行する	現実世界またはシミュレートされた会話のトレースを生成します。
スコア付け	コンピューティング指標	自動評価ツール（タスクの成功、安全性）を使用してトレースを評価します。
絞り込み	Optimize エージェント	手順やツールの改善を提案し、検証します。

評価プロセス

評価は、構造化された反復ワークフローに従って行われます。

評価ケースを定義する: 評価ケースは、エージェントのタスクを定義する仕様です。評価ケースには、1 つまたは複数の会話ステップ、会話コンテキスト（エージェントの状態）、推論中にユーザーのレスポンスをシミュレートするための仕様を含めることができます。
推論を実行する: 推論とは、評価ケースの実行のことです。評価ケースに会話プランが含まれている場合、推論中にユーザーの応答がシミュレートされます。
トレースを生成する: 各推論実行で、エージェントの動作がトレースにキャプチャされます。トレースは、モデルの入力、レスポンス、ツール呼び出しなど、エージェントの動作の事実に基づいた不変の記録です。
コンピューティング指標: 指標は、事前構築済みまたはカスタムのレータを使用して各トレースに対して計算されたスコアです。完全一致などの一部の指標は参照ベースであり、参照回答を含む評価ケースが必要です。有用性などの他の指標は参照なしで、トレースを単独で評価します。この自動評価では、マネージドテスト環境とは無関係に、本番環境のトラフィックまたは外部ログからキャプチャされたトレースをスコアリングできます。
分析を実施する: 指標、ルーブリック、判定を分析して、エージェントの主な問題を特定し、エージェントの問題をテストケースにリンクして、改善のための分析情報を生成します。
エージェントを最適化する: 最適化を使用して、評価サイクル全体を管理します。この自動プロセスでは、結果を分析し、エージェントに改善案を提示して、プロセスを繰り返し再実行してパフォーマンスの向上を確認します。

評価ワークフロー

評価は、ワークフローの次の 2 つの主要なステージに統合できます。

ローカル開発のイテレーション: Agent Development Kit（ADK）ベースのエージェントをローカルで評価し、プロンプトエンジニアリングとツール構成を迅速にイテレーションします。
デプロイされたエージェントの評価: 過去のトレースを分析するか、エージェントエンドポイントに対して合成ベンチマークを実行して、デプロイされたエージェントの品質を測定します。

中核となる機能

エージェントの評価は、既存のテストデータがなくても、初期評価スイートの構築に役立ちます。次の機能は、テストケースの生成とエージェントシステムの改善のプロセスを自動化するのに役立ちます。

シナリオの生成とユーザーシミュレーション: エージェントの手順とツール定義に基づいて、多様なマルチターンの合成テストシナリオを自動的に生成します。この自動化により、最初のテストケースを手動で作成する必要がなくなり、すぐにテストを開始できます。
環境シミュレーション: 特定のツール呼び出しをインターセプトして、カスタム動作、モックデータ、シミュレートされたエラー（HTTP 503 エラーやレイテンシの急増など）を挿入します。このシミュレーションを使用すると、本番環境のバックエンドに影響を与えることなく、エージェントの復元力を検証できます。
マルチターンの評価: マルチターンの自動評価ツールを使用して、会話履歴全体を自動的に評価します。これらの評価者は、インテントの抽出を分析し、ルーブリックを動的に生成し、客観的な検証結果を提供して、指示の遵守を確保します。
プロンプトの最適化: プロンプトの最適化を使用して、洗練されたシステム指示をプログラムで生成して検証します。最適化フレームワークは、障害点を特定し、対象を絞った更新を繰り返し提案します。