オフライン評価では、開発または本番環境でキャプチャされた過去のデータを分析して、エージェントのパフォーマンス、安全性、品質を測定できます。個々のトレース(単一の実行パス)または完全なセッション(複数ターンの会話履歴)を、事前定義された指標またはカスタム指標のセットに対して評価できます。
トレースとセッション
- トレース: モデルの入力、レスポンス、ツール呼び出しなど、エージェントの動作に関する事実に基づいた不変の記録。トレースは、単一の実行パスを表します。
- セッション: ユーザーとエージェント間の複数ターンのやり取り全体を対象とします。セッションを使用して、コンテキストの保持と会話フローを時間の経過とともに評価します。
始める前に
オフライン評価に必要なデータと環境を確保するには、次の操作を行います。
- Cloud Trace が有効になっている Agent Runtime がデプロイされていることを確認します。
- 評価結果を保存する Cloud Storage バケットを設定します。このパスは 1 回だけ指定すればよく、以降の実行では事前入力されます。
- 評価に Python SDK を使用する場合は、エージェントを評価するの説明に従って Agent Platform SDK クライアントを初期化します。
レジストリから評価を作成する
Google Cloud コンソールで、[エージェント プラットフォーム] > [エージェント] > [評価] ページに移動します。
[新しい評価] をクリックします。
評価の目標に応じて、[トレース] タブまたは [セッション] タブを選択します。
フィルタ アイコンと期間選択ツールを使用して、データ([バージョン] や [過去 2 週間] など)をフィルタし、評価する特定の ID を選択します。
[続行] をクリックします。
(省略可)[評価名] フィールドに、評価の名前を入力するか、事前入力されたデフォルトを使用します。
[出力の非公開データパス] フィールドに、Cloud Storage バケットの URI を入力します。初回使用後は、このパスは今後の実行のために事前入力されます。
デフォルトでは、4 つのコア指標がすべて追加されます。必要に応じて指標を追加または削除できます。
[エージェントを評価] をクリックします。
単一のトレースまたはセッションを評価する
個々のログを検査しながら評価を直接トリガーすることもできます。手順は次のとおりです。 1. Google Cloud コンソールで、[エージェント プラットフォーム] > [エージェント レジストリ] ページに移動します。
2. 特定のログエントリを選択します。3. 詳細パネルで [評価] タブをクリックします。4. ログが評価されていない場合は、[評価] をクリックして、アドホック評価を実行します。