Google は AI 技術を使用して、コンテンツをご希望の言語に翻訳しています。AI 翻訳には誤りが含まれる場合があります。

エージェントを評価する

この機能を使用すると、AI エージェントを評価できます。Gen AI Evaluation Service を使用して、エージェントのパフォーマンス、安全性、品質を測定し、改善できます。

評価のタイプ

評価の種類	ユースケース	頻度
迅速な評価	新しいエージェントロジックまたはモデルの変更をテストする。	頻繁（開発）
テストケースの評価	特定のデータセットに対する回帰テスト。	スケジュール設定（CI/CD）
オンラインモニタリング	本番環境のエージェントデプロイの品質をトラッキングする。	継続的（本番環境）

評価ワークフロー

エージェントは、Google Cloud コンソール または Agent Platform SDK を使用して評価できます。

Google Cloud コンソール

エージェントデプロイの基本的な評価を実行するには:

コンソールで、[Agent Platform] > [エージェント] ページに移動します。 Google Cloud
左側のナビゲーションメニューで [デプロイメント] を選択し、エージェントを選択します。
[デプロイメント] に移動
[ダッシュボード] タブを選択し、[評価] サブセクションを選択します。
[新しい評価] をクリックします。
プロンプトに従ってテストケースを定義し、指標を選択します。
[評価を実行] をクリックします。

詳細なガイドについては、オフライン評価を実行するまたはオンラインモニタで継続評価するをご覧ください。

Agent Platform SDK

エージェントの改善ワークフローは、評価、分析、最適化の継続的なサイクルであるQuality Flywheel、a に基づいています。エージェントのパフォーマンスを評価し、結果を分析して失敗のクラスタを特定し、プロンプトまたは構成を最適化してこれらの問題に対処します。この反復プロセスにより、パフォーマンスのギャップを事前に検出して解決できます。

始める前に

必要な拡張機能を使用して Agent Platform SDK をインストールします。
```
pip install google-cloud-aiplatform[adk,evaluation]
```
Agent Platform SDK クライアントを初期化します。
```
import vertexai
from vertexai import Client

client = Client(project="YOUR_PROJECT_ID", location="YOUR_LOCATION")
```
ここで
- YOUR_PROJECT_ID: 実際の Google Cloud プロジェクト ID。
- YOUR_LOCATION: クラウドリージョン（例: us-central1）。

1. 評価ケースを定義する（ユーザーシミュレーション）

テストケースを手動で作成するのではなく、ユーザーシミュレーション を使用して、エージェントの手順に基づいて合成のマルチターン会話プランを生成します。

# Generate scenarios from agent info
eval_dataset = client.evals.generate_conversation_scenarios(
    agent_info=my_agent_info,
    config={
        "count": 5,
        "generation_instruction": "Generate scenarios where a user asks for a refund.",
    },
)

詳細については、Agent Platform SDK リファレンスをご覧ください。

2. 推論を実行する

エージェントに対して評価ケースを実行して、トレース をキャプチャします。

# Generate behavior traces using a multi-turn user simulator
traces = client.evals.run_inference(
    agent=my_agent,
    src=eval_dataset,
    config={"user_simulator_config": {"max_turn": 5}}
)

3. 指標を計算する（AutoRaters）

マルチターン AutoRaters を使用して、キャプチャされたトレースをスコアリングします。これらの評価者は、会話履歴全体を分析して、手順の遵守とツールの使用状況を確認します。

# Evaluate the traces using multi-turn metrics
eval_result = client.evals.evaluate(
    traces=traces,
    metrics=[
        "MULTI_TURN_TASK_SUCCESS",
        "MULTI_TURN_TOOL_USE_QUALITY"
    ]
)

4. 分析を実施する（失敗クラスタ）

システムは、失敗した評価を自動的に損失クラスタ にグループ化して、エージェントの主な問題を特定します。

# Identify the top failure patterns in the results
loss_clusters = client.evals.generate_loss_clusters(eval_result=eval_result)

5. エージェントを最適化する

最後に、Optimizer サービスを使用して、失敗データに基づいてエージェントのシステム手順またはツール記述をプログラムで調整します。

# Automatically refine the system prompt to fix identified issues
optimize_result = client.optimizer.optimize(
    targets=["system_prompt"],
    benchmark=eval_result,
    tests=eval_dataset
)

エージェントを評価する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。