エージェント AI のユースケース: マルチモーダルデータを分類する

Last reviewed 2026-03-03 UTC

このドキュメントでは、Cloud Run にデプロイされたマルチエージェント AI システムのハイレベルなアーキテクチャについて説明します。このシステムは、異なるマルチモーダルデータを分析し、信頼度の高い分類を生成します。このアプローチでは、ライブデータを過去のグラウンドトゥルースと照合して、断片的なメディアを相互検証し、根拠のある検証可能な分析情報を作成します。

このドキュメントは、クラウドで AI インフラストラクチャとアプリケーションを構築して管理するアーキテクト、デベロッパー、管理者を対象としています。このドキュメントでは、AI エージェントとモデルの基本的な知識があることを前提としています。このドキュメントでは、AI エージェントの設計とコーディングに関する具体的なガイダンスは提供していません。

このドキュメントのデプロイセクションでは、マルチエージェント AI システムを構築してデプロイする方法を学習するために使用できるコードサンプルを示します。

アーキテクチャ

次の図は、並列エージェント設計パターンを使用してマルチモーダルデータの独立した分析を調整し、単一の分類を生成するマルチエージェント AI システムのアーキテクチャを示しています。

マルチモーダルデータを分類するマルチエージェント AI システムのアーキテクチャ。

このアーキテクチャは、次のデータフローを示しています。

ウェブアプリケーションは、分類のために一連のマルチモーダルデータを分析するリクエストをルートエージェントに送信します。ルートエージェントは、リクエストを受信し、 Cloud Run サービスにデプロイされるコーディネーターエージェントです。
ルートエージェントは、次の方法でリクエストを処理します。
1. ルートエージェントは before_agent_callback を開始して、環境構成を収集し、ユーザー入力を検証し、リソースパスを共有セッション状態に保存します。すべてのサブエージェントが共有セッション状態にアクセスできるため、状態データを取得するための冗長な呼び出しが不要になり、全体的なレイテンシが短縮されます。
2. ルートエージェントは Vertex AI の Gemini を使用して、ユーザーのリクエストを解釈し、並行して実行される専門のサブエージェントにタスクを分散します。
各サブエージェントは特定のドメインに特化しており、次のタスクを独立して実行します。
1. 画像と動画のアナリストサブエージェントは、カスタム Model Context Protocol（MCP）サーバーと連携して次のアクションを実行します。
  1. Cloud Storage バケットに保存されている未加工の非構造化データを取得します。
  2. Gemini にリクエストを送信して、入力データを解釈し、データを分類して、信頼レベルを計算します。
  3. Gemini は、推奨される分類と信頼レベルをカスタム MCP サーバーに返します。
  4. カスタム MCP サーバーは、レスポンスをサブエージェントに転送します。
2. 構造化データアナリストサブエージェントは、次のタスクを完了して分析を調整します。
  1. BigQuery MCP サーバーと連携して、BigQuery データセットに保存されている構造化されたコンテキストデータ（履歴レコード、イベントログ、センサーの読み取りなど）を取得します。
  2. 構造化データアナリストは、Gemini にリクエストを送信して、入力データを解釈し、データを分類して、信頼レベルを計算します。
  3. Gemini は、推奨される分類と信頼レベルをサブエージェントに返します。
各サブエージェントは、推奨される分類と信頼レベルをルートエージェントに返します。
ルートエージェントは Gemini を使用して、専門のサブエージェントからの出力を要約し、信頼度の高い単一の分類を生成します。
- 専門のサブエージェントからの分類の大部分が一致する場合、ルートエージェントは一致した分類をウェブアプリケーションに送信します。
- サブエージェントが一致する分類を提供しない場合、ルートエージェントは信頼レベルが最も高い分類を選択してウェブアプリケーションに送信します。

使用するプロダクト

このリファレンスアーキテクチャでは、次の Google Cloud プロダクトとツールを使用します。

Cloud Run: Google のスケーラブルなインフラストラクチャ上でコンテナを直接実行できるマネージドコンピューティングプラットフォーム。
Vertex AI: ML モデルと AI アプリケーションのトレーニングとデプロイを行い、AI を活用したアプリケーションで使用する LLM をカスタマイズできる ML プラットフォーム。
Gemini : Google が開発したマルチモーダル AI モデルのファミリー。

BigQuery: ML、地理空間分析、ビジネスインテリジェンスなどの組み込み機能を使用してデータの管理と分析を支援する、Google Cloud のフルマネージドエンタープライズデータウェアハウス。
Cloud Storage: 低コストで無制限のオブジェクトストア。さまざまなデータ型に対応しています。データにはの内部および外部からアクセスでき Google Cloud、冗長性を確保するために複数のロケーションに複製されます。
Google Cloud MCP サーバー: Model Context Protocol （MCP）を実装して、AI アプリケーションが Google と Google Cloud のプロダクトとサービスにアクセスできるようにする、Google マネージドのリモートサービス。
Model Context Protocol（MCP）: AI アプリケーションを外部システムに接続するためのオープンソース標準。
Agent Development Kit（ADK）: AI エージェントを開発、テスト、デプロイするためのツールとライブラリのセット。

フレームワーク、エージェントランタイム、ツール、メモリ、設計パターンなど、エージェント AI システムの代替コンポーネントを選択する方法については、次を参照してください。エージェント AI アーキテクチャのコンポーネントを選択する

ユースケース

このアーキテクチャは、分類タスクと検出タスクのために多様なマルチモーダルデータを合成するユースケース向けに設計されています。精度とスケーラビリティを向上させるため、このアーキテクチャでは、モノリシックな単一エージェントアプローチではなく、マルチエージェント AI システムを使用します。この設計パターンでは、焦点を絞った指示を提供し、競合するディレクティブを回避し、より迅速な意思決定のためにツールセットを小さくし、独立した更新をサポートします。これにより、より堅牢で洗練された結果が得られます。

このドキュメントで説明するアーキテクチャのユースケースの例を次に示します。

医療診断: 専門のエージェントをデプロイして、医用画像、患者の症状、検査結果を個別に分析することで、包括的な診断評価を提供します。AI システムは、決定された信頼しきい値に基づいてこれらの結果を要約し、臨床医に根拠のある検証可能な分析情報を提供します。
不正検出: エージェントをデプロイして、ユーザーの行動パターンや、スキャンした領収書や販売者の請求書などのトランザクションデータを個別に分析することで、不正の可能性を検出してフラグを設定します。ドキュメントの視覚的な証拠とデジタルネットワークアクティビティを相互参照することで、システムは不一致を特定し、単一のエージェントが疑わしい指標を特定した取引にフラグを設定します。
ドキュメント処理: 光学文字認識（OCR）、ドキュメント分類、データ抽出用の専門エージェントをデプロイして、ドキュメントからの情報の分類と抽出を自動化します。信頼度の高い処理をサポートするには、AI システムですべてのエージェントが出力に同意する必要があります。
品質検証（QC）: 外観検査、センサーデータ分析、仕様チェック用の専門エージェントをデプロイして、製品の品質を分類したり、異常を検出したりします。システムは、エージェント間の信頼しきい値に基づいて合格または不合格を判断します。

設計上の考慮事項

本番環境にこのアーキテクチャを実装するには、次の推奨事項を考慮してください。

エージェントのセキュリティ: エージェントが危険なアクションを実行する能力を制限するには、エージェント ID を作成し、 Identity and Access Management（IAM）属性を使用して MCP サーバーへのアクセスを保護します。最小権限の原則を適用することで、エージェント型 AI システムが想定どおりに動作し、本番環境リソースへの意図しない読み取り / 書き込みアクセスを防ぐことができます。
上り（内向き）セキュリティ: アプリケーションへのアクセスを制御するには、フロントエンド Cloud Run サービスのデフォルトの run.app URLを無効にして、リージョン外部アプリケーションロードバランサを設定します。ロードバランサは、アプリケーションへの受信トラフィックのロードバランシングとともに、SSL 証明書の管理も処理します。保護を強化するために、 Google Cloud Armor セキュリティポリシーを使用して、サービスにリクエストフィルタリング、DDoS 保護、レート制限を提供します。
コンテナイメージのセキュリティ: 承認済みのコンテナイメージのみが Cloud Run にデプロイされるようにするには、Binary Authorization を使用します。コンテナイメージのセキュリティリスクを特定して軽減するには、Artifact Analysis を使用して脆弱性スキャンを自動的に実行します。詳細については、コンテナスキャンの概要をご覧ください。
費用対効果の高いプロンプト: プロンプト（入力）の長さと生成されたレスポンス（出力）は、パフォーマンスと費用に直接影響します。短く、直接的で、十分なコンテキストを提供するプロンプトを作成します。詳細については、プロンプト設計のベストプラクティスをご覧ください。
ストレージ費用: ストレージ費用を管理するには、 Standard Storage クラスを選択し、オブジェクトのライフサイクル管理と Autoclassを有効にします。これらの機能を使用すると、アクセスパターンまたは設定したルールに基づいて、ストレージクラス間でデータを自動的に移動または削除することで、費用を最適化できます。
ストレージセキュリティ: Cloud Storage は、バケットとオブジェクトに対するユーザーのアクセスを制御するための 2 つの方法をサポートしています。これらの方法の 1 つは IAM、もう 1 つはアクセス制御リスト（ACL）です。ほとんどの場合は IAM の使用をおすすめします。これにより、バケットレベルとプロジェクトレベルで権限を付与できます。詳細については、アクセス制御の概要をご覧ください。
リソース割り当て: パフォーマンス要件に応じて、Cloud Run サービスに割り当てるメモリの上限と CPU の上限を構成します。パフォーマンスの最適化に関するガイダンスについては、 Cloud Run の一般的な開発のヒントをご覧ください。

設計要因とベストプラクティス、マルチエージェント AI システムの構築とデプロイに関する推奨事項については、のマルチエージェント AI システム Google Cloudをご覧ください。

デプロイ

このアーキテクチャのサンプル実装をデプロイするには、 Way Back Home Level 1 Codelab をお試しください。

次のステップ

Cloud Run で AI エージェントをホストする方法を学習する。
リモート MCP サーバーを構築して Cloud Run にデプロイする方法を学習する。
エージェント型 AI アーキテクチャのコンポーネントを選択する方法を学習する
（動画）エージェントのカスタムツールの構築に関する Agent Factory ポッドキャストを見る。
エージェント型 AI アーキテクチャガイドをさらに確認する。
の AI ワークロードと ML ワークロードに固有のアーキテクチャ原則と推奨事項の概要について、 Well-Architected Framework の AI と ML の視点を確認する。 Google Cloud
Cloud アーキテクチャセンターで、リファレンスアーキテクチャ、図、ベストプラクティスを確認する。

寄稿者

著者: Samantha He | テクニカルライター

その他の寄稿者:

Amina Mansour | Cloud Platform 評価チームリーダー
Andrey Shakirov | Google Cloud ソリューションアーキテクト
Ayo Adedeji | デベロッパーリレーションズエンジニア
Christina Lin | デベロッパーリレーションズエンジニアマネージャー
Kumar Dhanagopal | クロスプロダクトソリューションデベロッパー
Ryan Pei | Google Cloud プロダクトマネージャー

エージェント AI のユースケース: マルチモーダル データを分類する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。