このドキュメントでは、Cloud Run にデプロイされたマルチエージェント AI システムのハイレベルなアーキテクチャについて説明します。このシステムは、異なるマルチモーダル データを分析し、信頼度の高い分類を生成します。このアプローチでは、ライブデータを過去のグラウンド トゥルースと照合して、断片的なメディアを相互検証し、根拠のある検証可能な分析情報を作成します。
このドキュメントは、クラウドで AI インフラストラクチャとアプリケーションを構築して管理するアーキテクト、デベロッパー、管理者を対象としています。このドキュメントでは、AI エージェントとモデルの基本的な知識があることを前提としています。このドキュメントでは、AI エージェントの設計とコーディングに関する具体的なガイダンスは提供していません。
このドキュメントのデプロイ セクションでは、マルチエージェント AI システムを構築してデプロイする方法を学習するために使用できるコードサンプルを 示します。
アーキテクチャ
次の図は、並列エージェント設計パターンを使用してマルチモーダル データの独立した分析を調整し、単一の分類を生成するマルチエージェント AI システムのアーキテクチャを示しています。
このアーキテクチャは、次のデータフローを示しています。
- ウェブ アプリケーションは、分類のために一連のマルチモーダル データを分析するリクエストをルート エージェントに送信します。ルート エージェントは、 リクエストを受信し、 Cloud Run サービスにデプロイされるコーディネーター エージェントです。
- ルート エージェントは、次の方法でリクエストを処理します。
- ルート エージェントは
before_agent_callbackを開始して、環境構成を収集し、ユーザー入力を検証し、リソース パスを共有 セッション状態に保存します。すべてのサブエージェントが共有セッション状態にアクセスできるため、状態データを取得するための冗長な呼び出しが不要になり、全体的なレイテンシが短縮されます。 - ルート エージェントは Vertex AI の Gemini を使用して、ユーザーのリクエストを解釈し、並行して実行される専門のサブエージェントにタスクを分散します。
- ルート エージェントは
- 各サブエージェントは特定のドメインに特化しており、次のタスクを独立して実行します。
- 画像と動画のアナリスト サブエージェントは、カスタム Model Context
Protocol(MCP)サーバーと連携して
次のアクションを実行します。
- Cloud Storage バケットに保存されている未加工の非構造化データを取得します。
- Gemini にリクエストを送信して、入力データを解釈し、データを分類して、信頼レベルを計算します。
- Gemini は、推奨される分類と信頼レベルをカスタム MCP サーバーに返します。
- カスタム MCP サーバーは、レスポンスをサブエージェントに転送します。
- 構造化データ アナリスト サブエージェントは、次のタスクを完了して分析を調整します。
- BigQuery MCP サーバーと連携して、BigQuery データセットに保存されている構造化されたコンテキスト データ(履歴レコード、イベントログ、センサーの読み取りなど)を取得します。
- 構造化データ アナリストは、Gemini にリクエストを送信して、入力データを解釈し、データを分類して、信頼レベルを計算します。
- Gemini は、推奨される分類と信頼レベルをサブエージェントに返します。
- 画像と動画のアナリスト サブエージェントは、カスタム Model Context
Protocol(MCP)サーバーと連携して
次のアクションを実行します。
- 各サブエージェントは、推奨される分類と信頼レベルをルート エージェントに返します。
- ルート エージェントは Gemini を使用して、専門のサブエージェントからの出力を要約し、信頼度の高い単一の分類を生成します。
- 専門のサブエージェントからの分類の大部分が一致する場合、ルート エージェントは一致した分類をウェブ アプリケーションに送信します。
- サブエージェントが一致する分類を提供しない場合、ルート エージェントは信頼レベルが最も高い分類を選択してウェブ アプリケーションに送信します。
使用するプロダクト
このリファレンス アーキテクチャでは、次の Google Cloud プロダクトとツールを使用します。
- Cloud Run: Google のスケーラブルなインフラストラクチャ上で コンテナを直接実行できるマネージド コンピューティング プラットフォーム。
- Vertex AI: ML モデル と AI アプリケーションのトレーニングとデプロイを行い、AI を活用したアプリケーションで使用する LLM をカスタマイズできる ML プラットフォーム。
- Gemini: Google が開発したマルチモーダル AI モデルのファミリー。
- BigQuery: ML、地理空間分析、ビジネス インテリジェンスなどの組み込み機能を使用してデータの管理と 分析を支援する、Google Cloud のフルマネージド エンタープライズ データ ウェアハウス。
- Cloud Storage: 低コストで無制限のオブジェクト ストア。さまざまなデータ型に対応しています。 データには の内部および外部からアクセスでき Google Cloud、冗長性を確保するために複数のロケーションに複製されます 。
- Google Cloud MCP サーバー: Model Context Protocol (MCP)を実装して、AI アプリケーションが Google と Google Cloud のプロダクトとサービスにアクセスできるようにする、Google マネージドのリモート サービス。
- Model Context Protocol(MCP): AI アプリケーションを外部 システムに接続するためのオープンソース標準。
- Agent Development Kit(ADK): AI エージェントを 開発、テスト、デプロイするためのツールとライブラリのセット。
フレームワーク、エージェント ランタイム、ツール、メモリ、設計パターンなど、エージェント AI システムの代替コンポーネントを選択する方法については、 次を参照してください。 エージェント AI アーキテクチャのコンポーネントを選択する
ユースケース
このアーキテクチャは、分類タスクと検出タスクのために多様なマルチモーダル データを合成するユースケース向けに設計されています。精度とスケーラビリティを向上させるため、このアーキテクチャでは、モノリシックな単一エージェント アプローチではなく、マルチエージェント AI システムを使用します。この設計パターンでは、焦点を絞った指示を提供し、競合するディレクティブを回避し、より迅速な意思決定のためにツールセットを小さくし、独立した更新をサポートします。これにより、より堅牢で洗練された結果が得られます。
このドキュメントで説明するアーキテクチャのユースケースの例を次に示します。
- 医療診断: 専門のエージェントを デプロイして、医用画像、患者の 症状、検査結果を個別に分析することで、包括的な診断評価を提供します。AI システムは、決定された信頼しきい値に基づいてこれらの結果を要約し、臨床医に根拠のある検証可能な分析情報を提供します。
- 不正検出: エージェントをデプロイして、ユーザーの行動パターンや、スキャンした領収書や販売者の請求書などのトランザクション データを個別に分析することで、不正の可能性を検出してフラグを設定します。ドキュメントの視覚的な証拠とデジタル ネットワーク アクティビティを相互参照することで、システムは不一致を特定し、単一のエージェントが疑わしい指標を特定した取引にフラグを設定します。
- ドキュメント処理: 光学文字認識(OCR)、ドキュメント分類、データ抽出用の専門エージェントをデプロイして、ドキュメントからの情報の分類と抽出を自動化します。信頼度の高い処理をサポートするには、AI システムですべてのエージェントが出力に同意する必要があります。
- 品質検証(QC): 外観検査、センサーデータ分析、仕様チェック用の専門エージェントをデプロイして、製品の品質を分類したり、異常を検出したりします。システムは、エージェント間の信頼しきい値に基づいて合格または不合格を判断します。
設計上の考慮事項
本番環境にこのアーキテクチャを実装するには、次の推奨事項を考慮してください。
- エージェントのセキュリティ: エージェントが危険なアクションを実行する能力を制限するには、 エージェント ID を作成し、 Identity and Access Management(IAM)属性を使用して MCP サーバーへのアクセスを保護します。最小権限の 原則 を適用することで、 エージェント型 AI システムが想定どおりに動作し、 本番環境リソースへの意図しない読み取り / 書き込みアクセスを防ぐことができます。
- 上り(内向き)セキュリティ: アプリケーションへのアクセスを制御するには、フロントエンド Cloud Run サービスの デフォルトの run.app URLを無効にして、リージョン外部アプリケーション ロードバランサを設定します。 ロードバランサは、アプリケーションへの受信トラフィックのロード バランシングとともに、SSL 証明書の管理も処理します。保護を強化するために、 Google Cloud Armor セキュリティ ポリシー を使用して、 サービスにリクエスト フィルタリング、DDoS 保護、レート制限を提供します。
- コンテナ イメージのセキュリティ: 承認済みのコンテナ イメージのみが Cloud Run にデプロイされるようにするには、Binary Authorization を使用します。コンテナ イメージのセキュリティ リスクを特定して軽減するには、Artifact Analysis を使用して脆弱性スキャンを自動的に実行します。詳細については、 コンテナ スキャンの概要をご覧ください。
- 費用対効果の高いプロンプト: プロンプト(入力)の長さと 生成されたレスポンス(出力)は、パフォーマンスと費用に直接影響します。短く、直接的で、十分なコンテキストを提供するプロンプトを作成します。詳細については、 プロンプト設計の ベスト プラクティスをご覧ください。
- ストレージ費用: ストレージ費用を管理するには、 Standard Storage クラスを選択し、 オブジェクトのライフサイクル管理と Autoclassを有効にします。これらの機能を使用すると、アクセス パターンまたは設定したルールに基づいて、ストレージ クラス間でデータを自動的に移動または削除することで、費用を最適化できます。
- ストレージ セキュリティ: Cloud Storage は、バケットとオブジェクトに対するユーザーのアクセスを制御するための 2 つの方法をサポートしています。これらの方法の 1 つは IAM、もう 1 つはアクセス制御リスト(ACL)です。ほとんどの場合は IAM の使用をおすすめします。これにより、バケットレベルとプロジェクト レベルで権限を付与できます。詳細については、アクセス制御の概要 をご覧ください。
- リソース割り当て: パフォーマンス要件に応じて、Cloud Run サービスに割り当てる メモリの上限と CPU の上限を構成します。パフォーマンスの最適化に関するガイダンスについては、 Cloud Run の一般的な開発のヒントをご覧ください。
設計要因とベスト プラクティス、マルチエージェント AI システムの構築とデプロイに関する推奨事項については、 の マルチエージェント AI システム Google Cloudをご覧ください。
デプロイ
このアーキテクチャのサンプル実装をデプロイするには、 Way Back Home Level 1 Codelab をお試しください。
次のステップ
- Cloud Run で AI エージェントをホストする方法を学習する。
- リモート MCP サーバーを 構築して Cloud Run にデプロイする方法を学習する。
- エージェント型 AI アーキテクチャのコンポーネントを選択する方法を学習する
- (動画)エージェントのカスタムツールの構築に関する Agent Factory ポッドキャストを見る。
- エージェント型 AI アーキテクチャ ガイドをさらに確認する。
- の AI ワークロードと ML ワークロードに固有のアーキテクチャ原則と推奨事項の概要について、 Well-Architected Framework の AI と ML の視点 を確認する。 Google Cloud
- Cloud アーキテクチャ センターで、リファレンス アーキテクチャ、図、ベスト プラクティスを確認する。
寄稿者
著者: Samantha He | テクニカル ライター
その他の寄稿者:
- Amina Mansour | Cloud Platform 評価チーム リーダー
- Andrey Shakirov | Google Cloud ソリューション アーキテクト
- Ayo Adedeji | デベロッパー リレーションズ エンジニア
- Christina Lin | デベロッパー リレーションズ エンジニア マネージャー
- Kumar Dhanagopal | クロス プロダクト ソリューション デベロッパー
- Ryan Pei | Google Cloud プロダクト マネージャー