Gemini Enterprise Agent Platform のエージェントのオブザーバビリティにより、デプロイされたエージェントと Model Context Protocol(MCP)サーバーのパフォーマンス、動作、健全性を包括的に可視化できます。主要な指標をモニタリングし、実行パスをトレースし、マルチエージェント システム全体を観察することで、問題を診断し、リソース消費量を最適化し、エージェントの信頼性を向上させることができます。
このドキュメントでは、Gemini Enterprise Agent Platform で利用できるオブザーバビリティ ツールの概要について説明します。これには、システム全体のトポロジ、個々のエージェントのモニタリング、MCP サーバーの指標が含まれます。
テレメトリーの設定
これらのオブザーバビリティ ダッシュボード、トポロジ、トレースにデータを入力するには、エージェントが OpenTelemetry 形式のテレメトリー データを Google Cloud Observability のストレージ システムに送信するように構成されている必要があります。
このデータを出力するように、エージェントと MCP サーバー環境が適切に構成されていることを確認します。組み込みの Google Cloud コンポーネントは、OpenTelemetry 形式でテレメトリーを自動的に出力します。たとえば、Model Armor は標準化されたテレメトリーをネイティブに出力するため、カスタムの計測を必要とせずに、トレースデータ内でリアルタイムのポリシー インターセプトをシームレスに公開してモニタリングできます。
エージェントのテレメトリーの設定手順と要件については、次のリソースをご覧ください。
- ADK で構築されたエージェントを計測するには、OpenTelemetry を使用して ADK アプリケーションを計測するをご覧ください。
- ADK でビルドされていない Agent Runtime のエージェントを計測するには、生成 AI アプリケーションを計測するをご覧ください。
- MCP サーバーのテレメトリーについては、Cloud Trace を使用して MCP ツールの使用状況をモニタリングするをご覧ください。
- Model Armor テレメトリーについては、Model Armor のロギングを構成するをご覧ください。
エージェント トポロジ
マルチエージェント トポロジ ビューには、マルチエージェント システム アーキテクチャのシステム全体のマップが視覚的に表示されます。Agent Registry に登録されているすべてのエージェントと MCP サーバー間のリアルタイムの関係とトラフィック フローが表示されます。この集約ビューを使用すると、複雑な依存関係を把握し、エコシステム全体の潜在的なボトルネックを特定できます。
マルチエージェント トポロジ ビューに加えて、単一のエージェントの特定のインバウンド依存関係とアウトバウンド依存関係を表示することもできます。この単一エージェント トポロジ ビューは、選択したエージェントのトレースデータに基づいています。
エージェント トポロジグラフの操作と解釈の詳細な手順については、エージェントの関係とトポロジを表示するをご覧ください。
オブザーバビリティ シグナル
Gemini Enterprise Agent Platform は、指標、トレース、ログを通じてオブザーバビリティを提供します。
レジストリから特定のエージェントを選択すると、[オブザーバビリティ] タブに、運用状況、パフォーマンス、インフラストラクチャの使用率をモニタリングするためのターゲット ダッシュボードのスイートが表示されます。[オブザーバビリティ] タブの左側のナビゲーションを使用して、次のビューを切り替えます。
- 概要: 選択した期間の概要レベルの使用状況(合計セッション数、セッションあたりの平均ターン数、エージェントの合計呼び出し数など)を追跡します。時系列グラフには、トークン使用量(入力と出力)、エージェントのトラフィック量全体、レイテンシのパーセンタイル(p50、p95、p99)、エラー率が表示されます。
- 評価: 継続的な品質評価のためのオンライン モニターを表示します。これには、平均レスポンス品質、安全性指標、ハルシネーション率、ツール使用品質を追跡する時系列ウィジェットが含まれます。
- モデル: 基盤となる基盤モデル別にパフォーマンスを分類します。特定のモデル別に、p95 レイテンシ、合計呼び出し数、エラー率、割り当てエラー、トークン使用量をモニタリングできます。
- ツール: エージェントに接続されている外部ツールとサービスをモニタリングします。このビューには、ツールごとの p95 レイテンシ、呼び出し数、エラー率と、ツールが呼び出されなかったインタラクションの頻度が詳細に表示されます。
- 使用量: コンテナの CPU 割り当て、コンテナのメモリ割り当て、トークンの使用量など、エージェントのランタイム環境のインフラストラクチャ レベルの指標を提供します。
- ログ: 詳細なトラブルシューティングを行うために、重大度、タイムスタンプ、実行の概要など、フィルタリング可能なエージェントの未加工ログのストリームを表示します。詳細については、エージェントのログを表示するをご覧ください。
[オブザーバビリティ] タブのダッシュボードに加えて、エージェントの [トレース] タブを使用して、スパンの有向非巡回グラフや入力/出力など、特定のセッションのステップごとの実行を検査できます。詳細については、エージェントのトレースを表示するをご覧ください。また、[トポロジ] タブを使用して、その単一のエージェントの特定のインバウンド依存関係とアウトバウンド依存関係を表示することもできます。
MCP サーバーの場合、リクエスト数と p95 リクエスト期間をモニタリングして、使用率と応答性を追跡できます。
OpenTelemetry 生成 AI の規約
エージェントのトレースとプロンプトとレスポンスのログは、生成 AI システムの OpenTelemetry セマンティック規約に大きく依存して、生成 AI テレメトリーのキャプチャ、構造化、レポートの方法を標準化しています。
これらの規約に準拠することは、エージェントのトレースにとって非常に重要です。なぜなら、ツール実行、取得ステップ、トークン消費など、複雑な複数ステップのエージェント ワークフローを記述するための、ベンダーに依存しない普遍的な形式が確立されるからです。この標準化により、 Google Cloudの内外で、さまざまなオブザーバビリティ バックエンドと分析ツール間のシームレスな相互運用が可能になります。
次のステップ
- トポロジグラフとしてエージェントの関係を表示します。
- エージェントのトレースを表示して、エージェントの動作をデバッグします。
- エージェントを評価する。