Gemini Enterprise Agent Platform のエージェント オブザーバビリティを使用すると、デプロイされたエージェントと Model Context Protocol(MCP)サーバーのパフォーマンス、動作、健全性を包括的に把握できます。主要な指標のモニタリング、実行パスのトレース、マルチエージェント システム全体の観察を行うことで、問題を診断し、リソース消費を最適化し、エージェントの信頼性を向上させることができます。
このドキュメントでは、Gemini Enterprise Agent Platform で使用できるオブザーバビリティ ツール(システム全体のトポロジ、個々のエージェントのモニタリング、MCP サーバーの指標など)の概要について説明します。
テレメトリーの設定
これらのオブザーバビリティ ダッシュボード、トポロジ、トレースにデータを入力するには、OpenTelemetry 形式でテレメトリー データを Google Cloud Observability のストレージ システムに送信するようにエージェントを構成する必要があります。
このデータを出力するように、エージェントと MCP サーバーの環境が正しく構成されていることを確認してください。組み込みの Google Cloud コンポーネントは、 OpenTelemetry 形式でテレメトリーを自動的に出力します。たとえば、Model Armor は標準化されたテレメトリーをネイティブに出力するため、カスタム計測を行わなくても、トレースデータ内でリアルタイムのポリシー インターセプトをシームレスに公開してモニタリングできます。
エージェントのテレメトリーの設定手順と要件については、次のリソースをご覧ください。
- ADK で構築されたエージェントを計測するには、 OpenTelemetry を使用して ADK アプリケーションを計測するをご覧ください。
- ADK で構築されていない Agent Runtime のエージェントを計測するには、 以下 生成 AI アプリケーションを計測するをご覧ください。
- MCP サーバーのテレメトリーについては、 Cloud Trace を使用して MCP ツールの使用状況をモニタリングするをご覧ください。
- Model Armor のテレメトリーについては、 Model Armor のロギングを構成するをご覧ください。
エージェントのトポロジ
マルチエージェント トポロジ ビューには、マルチエージェント システム アーキテクチャのシステム全体のマップが視覚的に表示されます。Agent Registry に登録されているすべてのエージェントと MCP サーバー間のリアルタイムの関係とトラフィックフローが表示されます。この集約ビューを使用すると、複雑な依存関係を把握し、エコシステム全体の潜在的なボトルネックを特定できます。
マルチエージェント トポロジ ビューに加えて、単一のエージェントの特定のインバウンド依存関係とアウトバウンド依存関係を表示することもできます。この単一エージェントのトポロジ ビューは、選択したエージェントのトレースデータに基づいています。
エージェント トポロジグラフの操作と解釈の詳細な手順については、 エージェントの関係とトポロジを表示するをご覧ください。
オブザーバビリティ シグナル
Gemini Enterprise Agent Platform は、指標、トレース、ログを通じてオブザーバビリティを提供します。
Registry から特定のエージェントを選択すると、[Observability] タブに、オペレーションの健全性、パフォーマンス、インフラストラクチャの使用率をモニタリングするためのターゲット ダッシュボードが表示されます。[Observability] タブの左側のナビゲーションを使用して、次のビューを切り替えます。
- 概要: 選択した期間の全体的な使用状況(合計セッション数、セッションあたりの平均ターン数、エージェントの合計呼び出し数など)を追跡します。時系列グラフには、トークンの使用量(入力と出力)、エージェントの全体的なトラフィック量、レイテンシのパーセンタイル(p50、p95、p99)、エラー率が表示されます。
- 評価: 継続的な品質評価のためのオンライン モニターが表示されます。これには、平均応答品質、安全性指標、ハルシネーション率、ツールの使用品質を追跡する時系列ウィジェットが含まれます。
- モデル: 基盤となる基盤モデル別にパフォーマンスを分類します。 特定のモデルごとに、p95 レイテンシ、合計呼び出し数、エラー率、割り当てエラー、トークン使用量をモニタリングできます。
- ツール: エージェントに接続されている外部ツールとサービスをモニタリングします。このビューには、ツールごとの p95 レイテンシ、呼び出し数、エラー率、ツールが呼び出されなかったインタラクションの頻度が詳細に表示されます。
- 使用量: コンテナの CPU 割り当て、コンテナのメモリ割り当て、トークン使用量など、エージェントのランタイム環境のインフラストラクチャ レベルの指標を提供します。
- ログ: 重大度、タイムスタンプ、実行の概要など、フィルタ可能なエージェントの生ログのストリームを表示します。詳細なトラブルシューティングに役立ちます。詳細については、 エージェントのログを表示するをご覧ください。
[Observability] タブのダッシュボードに加えて、エージェントの [Traces] タブを使用して、スパンと入力/出力の有向非巡回グラフなど、特定のセッションのステップごとの実行を検査できます。詳細については、エージェントのトレースを表示するをご覧ください。[Topology] タブを使用して、その単一のエージェントの特定のインバウンド依存関係とアウトバウンド依存関係を表示することもできます。
MCP サーバーの場合、リクエスト数と p95 リクエスト期間をモニタリングして、使用率と応答性を追跡できます。
OpenTelemetry 生成 AI の規約
エージェントのトレースとプロンプトとレスポンスのログは、生成 AI システムの OpenTelemetry セマンティック規約 に大きく依存して、生成 AI テレメトリーのキャプチャ、構造化、レポートの方法を標準化します。
これらの規約に準拠することは、エージェントのトレースにとって非常に重要です。ツール実行、取得ステップ、トークン消費など、複雑な複数ステップのエージェント ワークフローを記述するための、ベンダーに依存しない汎用的な形式を確立するためです。この 標準化により、 の内外で、さまざまなオブザーバビリティ バックエンドと分析ツール間のシームレスな相互運用が可能になります。 Google Cloud
次のステップ
- エージェントの関係をトポロジグラフとして表示する。
- エージェントのトレースを表示して、エージェントの動作をデバッグする。
- エージェントを評価する。