このドキュメントでは、Cloud Run にデプロイされ、異なるマルチモーダル データを分析して信頼性の高い分類を生成するマルチエージェント AI システムのハイレベルなアーキテクチャについて説明します。このアプローチでは、ライブデータを過去のグラウンド トゥルースと照合して、断片化されたメディアをクロス検証し、根拠のある検証可能な分析情報を生成します。
このドキュメントは、クラウドで AI インフラストラクチャとアプリケーションを構築して管理するアーキテクト、デベロッパー、管理者を対象としています。このドキュメントは、AI エージェントとモデルに関する基本的な知識があることを前提としています。このドキュメントでは、AI エージェントの設計とコーディングに関する具体的なガイダンスは提供していません。
このドキュメントのデプロイ セクションには、マルチエージェント AI システムの構築とデプロイの方法を学ぶために使用できるコードサンプルが記載されています。
アーキテクチャ
次の図は、並列エージェント設計パターンを使用して、マルチモーダル データの独立した分析を調整し、単一の分類を生成するマルチエージェント AI システムのアーキテクチャを示しています。
このアーキテクチャは、次のデータフローを示しています。
- ウェブ アプリケーションは、分類のために一連のマルチモーダル データを分析するようルート エージェントにリクエストを送信します。ルートエージェントは、リクエストを受信し、Cloud Run サービスにデプロイされるコーディネーター エージェントです。
- ルート エージェントは、次のようにリクエストを処理します。
- ルート エージェントは
before_agent_callbackを開始して、環境構成を収集し、ユーザー入力を検証し、共有のセッション状態にリソースパスを保存します。すべてのサブエージェントが共有セッション状態にアクセスできるため、状態データを取得するための冗長な呼び出しが不要になり、全体的なレイテンシが短縮されます。 - ルート エージェントは、Vertex AI の Gemini を使用してユーザーのリクエストを解釈し、並行して実行される専門のサブエージェントにタスクを分散します。
- ルート エージェントは
- 各サブエージェントは特定のドメインに特化しており、次のタスクを個別に実行します。
- 画像と動画のアナリスト サブエージェントは、カスタム Model Context Protocol(MCP)サーバーとやり取りして、次のアクションを実行します。
- Cloud Storage バケットに保存されている未加工の非構造化データを取得します。
- Gemini にリクエストを送信して、入力データの解釈、データの分類、信頼度の計算を行います。
- Gemini は、提案された分類と信頼度をカスタム MCP サーバーに返します。
- カスタム MCP サーバーは、レスポンスをサブエージェントに転送します。
- 構造化データ アナリスト サブエージェントは、次のタスクを完了して分析をオーケストレートします。
- BigQuery MCP サーバーと連携して、BigQuery データセットに保存されている構造化されたコンテキスト データ(履歴レコード、イベントログ、センサーの読み取り値など)を取得します。
- 構造化データ アナリストは、入力データの解釈、データの分類、信頼度の計算を Gemini にリクエストします。
- Gemini は、提案された分類と信頼度をサブエージェントに返します。
- 画像と動画のアナリスト サブエージェントは、カスタム Model Context Protocol(MCP)サーバーとやり取りして、次のアクションを実行します。
- 各サブエージェントは、提案された分類と信頼レベルをルートエージェントに返します。
- ルート エージェントは Gemini を使用して、専門のサブエージェントからの出力を要約し、信頼性の高い単一の分類を生成します。
- 専門のサブエージェントの分類の大部分が一致した場合、ルート エージェントは一致した分類をウェブ アプリケーションに送信します。
- サブエージェントが一致する分類を提供しない場合、ルートエージェントは信頼度が最も高い分類を選択して、ウェブ アプリケーションに送信します。
使用するプロダクト
このリファレンス アーキテクチャでは、次の Google Cloud プロダクトとツールを使用します。
- Cloud Run: Google のスケーラブルなインフラストラクチャ上でコンテナを直接実行できるマネージド コンピューティング プラットフォーム。
- Vertex AI: ML モデルと AI アプリケーションのトレーニングとデプロイを行い、AI を活用したアプリケーションで使用する LLM をカスタマイズできる ML プラットフォーム。
- Gemini: Google が開発したマルチモーダル AI モデルのファミリー。
- BigQuery: ML、地理空間分析、ビジネス インテリジェンスなどの組み込み機能を使用してデータの管理と分析を支援する、Google Cloud のフルマネージド エンタープライズ データ ウェアハウス。
- Cloud Storage: 低コストで無制限のオブジェクト ストア。さまざまなデータ型に対応しています。データには Google Cloudの内部および外部からアクセスでき、冗長性を確保するために複数のロケーションに複製されます。
- Google Cloud MCP サーバー: Model Context Protocol(MCP)を実装して、AI アプリケーションが Google と Google Cloud のプロダクトとサービスにアクセスできるようにする、Google が管理するリモート サービス。
- Model Context Protocol(MCP): AI アプリケーションを外部システムに接続するためのオープンソース標準。
- Agent Development Kit(ADK): AI エージェントの開発、テスト、デプロイを行うためのツールとライブラリのセット。
フレームワーク、エージェント ランタイム、ツール、メモリ、設計パターンなど、エージェント AI システムの代替コンポーネントを選択する方法については、エージェント AI アーキテクチャ コンポーネントを選択するをご覧ください。
ユースケース
このアーキテクチャは、分類タスクと検出タスクのために多様なマルチモーダル データを合成するユースケース向けに設計されています。精度とスケーラビリティを高めるため、このアーキテクチャでは、モノリシックな単一エージェント アプローチではなく、マルチエージェント AI システムを使用しています。この設計パターンは、焦点を絞った指示を提供し、競合するディレクティブを回避し、より迅速な意思決定のための小さなツールセットを可能にし、独立した更新をサポートします。これにより、より堅牢で洗練された結果が得られます。
このドキュメントで説明するアーキテクチャのユースケースの例を次に示します。
- 医学的診断: 専門のエージェントをデプロイして、医用画像、患者の症状、検査結果を個別に分析し、包括的な診断評価を提供します。AI システムは、決定された信頼度のしきい値に基づいてこれらの結果を要約し、臨床医に根拠のある検証可能な分析情報を提供します。
- 不正行為の検出: エージェントをデプロイして、ユーザーの行動パターンや、スキャンされた領収書や販売者の請求書などの取引データを個別に分析し、不正行為の可能性を検出してフラグを設定します。ドキュメントの視覚的な証拠とデジタル ネットワーク アクティビティを相互参照することで、システムは不一致を特定し、単一のエージェントが不審な指標を特定した取引にフラグを設定します。
- ドキュメント処理: 光学式文字認識(OCR)、ドキュメント分類、データ抽出用の専用エージェントをデプロイして、ドキュメントからの情報の分類と抽出を自動化します。信頼性の高い処理をサポートするには、AI システムですべてのエージェントが出力に同意する必要があります。
- 品質管理: 視覚検査、センサーデータ分析、仕様チェック用の専用エージェントをデプロイして、製品の品質を分類したり、異常を検出したりします。システムは、エージェント間で決定された信頼度しきい値に基づいて合格または不合格を判断します。
設計上の考慮事項
このアーキテクチャを本番環境に実装する場合は、次の推奨事項を検討してください。
- エージェントのセキュリティ: エージェントが危険な操作を実行できないようにするには、エージェント ID を作成し、Identity and Access Management(IAM)属性を使用して MCP サーバーへのアクセスを保護します。最小権限の原則を適用することで、エージェント AI システムが想定どおりに動作し、本番環境リソースへの意図しない読み取り / 書き込みアクセスを防ぐことができます。
- 上り(内向き)セキュリティ: アプリケーションへのアクセスを制御するには、フロントエンド Cloud Run サービスのデフォルトの run.app URL を無効にして、リージョン外部アプリケーション ロードバランサを設定します。ロードバランサは、アプリケーションへの受信トラフィックのロード バランシングとともに、SSL 証明書の管理も処理します。保護を強化するには、Google Cloud Armor セキュリティ ポリシーを使用して、サービスにリクエスト フィルタリング、DDoS 保護、レート制限を提供します。
- コンテナ イメージのセキュリティ: 承認済みのコンテナ イメージのみが Cloud Run にデプロイされるようにするには、Binary Authorization を使用します。コンテナ イメージのセキュリティ リスクを特定して軽減するには、Artifact Analysis を使用して脆弱性スキャンを自動的に実行します。詳細については、コンテナ スキャンの概要をご覧ください。
- 費用対効果の高いプロンプト: プロンプト(入力)の長さと生成されたレスポンス(出力)は、パフォーマンスと費用に直接影響します。短く、直接的で、十分なコンテキストを提供するプロンプトを作成します。詳細については、プロンプト設計のベスト プラクティスをご覧ください。
- ストレージ費用: ストレージ費用を管理するには、Standard Storage クラスを選択し、オブジェクトのライフサイクル管理と Autoclass を有効にします。これらの機能を使用すると、アクセス パターンや設定したルールに基づいてストレージ クラス間でデータを自動的に移動または削除することで、費用を最適化できます。
- ストレージ セキュリティ: Cloud Storage は、バケットとオブジェクトに対するユーザーのアクセスを制御するための 2 つの方法をサポートしています。これらの方法の 1 つは IAM、もう 1 つはアクセス制御リスト(ACL)です。ほとんどの場合は IAM の使用をおすすめします。これにより、バケットレベルとプロジェクト レベルで権限を付与できます。詳細については、アクセス制御の概要をご覧ください。
- リソース割り当て: パフォーマンス要件に応じて、Cloud Run サービスに割り当てるメモリ上限と CPU 上限を構成します。パフォーマンスの最適化に関するガイダンスについては、Cloud Run の一般的な開発のヒントをご覧ください。
設計要因とベスト プラクティス、マルチエージェント AI システムの構築とデプロイに関する推奨事項については、 Google Cloudのマルチエージェント AI システムをご覧ください。
デプロイ
このアーキテクチャのサンプル実装をデプロイするには、Way Back Home Level 1 の Codelab をお試しください。
次のステップ
- Cloud Run で AI エージェントをホストする方法を学習する。
- リモート MCP サーバーを構築して Cloud Run にデプロイする方法を学習する。
- エージェント AI アーキテクチャのコンポーネントを選択する方法を確認する
- (動画)エージェント向けのカスタムツールの構築に関する Agent Factory ポッドキャストをご覧ください。
- その他のエージェント AI アーキテクチャ ガイドを確認する。
- Google Cloudの AI ワークロードと ML ワークロードに固有のアーキテクチャ原則と推奨事項の概要について、Well-Architected Framework の AI と ML の視点を確認する。
- Cloud アーキテクチャ センターで、リファレンス アーキテクチャ、図、ベスト プラクティスを確認する。
寄稿者
著者: Samantha He | テクニカル ライター
その他の寄稿者:
- Amina Mansour | Cloud Platform 評価チームの責任者
- Andrey Shakirov | Google Cloud ソリューション アーキテクト
- Ayo Adedeji | デベロッパー リレーションズ エンジニア
- Christina Lin | デベロッパー リレーションズ エンジニア マネージャー
- Kumar Dhanagopal | クロス プロダクト ソリューション デベロッパー
- Google Cloud、プロダクト マネージャー | Ryan Pei