Google は AI 技術を使用して、コンテンツをご希望の言語に翻訳しています。AI 翻訳には誤りが含まれる場合があります。

エージェント型 AI のユースケース: ライブの双方向マルチモーダルストリーミングを有効にする

Last reviewed 2026-04-06 UTC

このドキュメントでは、 Google Cloud上のライブの双方向マルチエージェント AI システムのハイレベルアーキテクチャについて説明します。このシステムは、複雑なコンポーネントの組み立て、機器の故障の診断、複雑な修理手順のナビゲーションなどの技術的なタスクをユーザーが完了するのに役立ちます。エージェント AI システムは、マルチモーダルデータの継続的な双方向ストリームを通じて、根拠のある技術ガイダンスと自動化された安全監視を提供します。

このドキュメントは、クラウドで AI インフラストラクチャとアプリケーションを構築して管理するアーキテクト、デベロッパー、管理者を対象としています。このドキュメントは、AI エージェントとモデルの基本的な知識があることを前提としています。このドキュメントでは、AI エージェントの設計とコーディングに関する具体的なガイダンスは提供していません。

このドキュメントのデプロイセクションには、マルチエージェント AI システムの構築とデプロイの方法を学ぶために使用できるコードサンプルが記載されています。

アーキテクチャ

次の図は、マルチエージェント AI システムを使用してライブの双方向マルチモーダルデータストリーミングを可能にするアーキテクチャの概要を示しています。

双方向のマルチモーダルデータストリーミングを可能にするマルチエージェント AI システムのアーキテクチャの概要。

上の図のアーキテクチャには、技術ガイダンスと安全性モニタリングの 2 つのワークフローがあります。

技術ガイダンスワークフローにより、ユーザーは複雑な技術的な問い合わせに対するナレーション付きの解決策をリアルタイムで受け取ることができます。このワークフローでは、Gemini Live モデルを使用してマルチモーダルストリームを処理し、サブエージェントと連携してナレッジデータベースからグラウンディングされた商品情報を取得します。
安全モニタリングワークフローは、技術的な手順の実行中にユーザーの安全を確保するために、危険を自動的に検出します。このワークフローでは、Gemini を使用してライブ動画のセグメントを分析し、潜在的なリスクを特定して、クライアントダッシュボードを通じて即時の警告をトリガーします。

次のタブには、技術ガイダンスと安全性モニタリングのワークフローを示すアーキテクチャ図が用意されています。

技術ガイダンスのワークフロー

次の図は、技術ガイダンスワークフローの詳細なアーキテクチャを示しています。

上の図は、次のデータフローを示しています。

ユーザーがクライアントダッシュボードから音声で技術的な問い合わせを行うと、セッションが開始されます。たとえば、技術者が制御パネルにカメラを向け、「この点滅している赤いエラーランプはどういう意味ですか？」と質問する場合があります。
クライアントダッシュボードは、フロントエンドとバックエンドサーバーの間に永続的な WebSocket 接続を確立します。
WebSocket メッセージは、未加工のマルチメディアデータを Blob オブジェクトにパッケージ化します。Agent Development Kit（ADK）LiveRequestQueue コンポーネントは、入力データをディスパッチャーエージェントに継続的にストリーミングします。
ディスパッチャーエージェントは、技術的なガイダンスが必要な音声コマンドまたはビジュアルコマンドを検出し、入力ストリームを Gemini Live モデルに送信します。
Gemini Live モデルは、生データを検索してイベントを特定します。イベントは、音声キーワード（「組み立て」や「ヘルプ」など）や、視覚的な合図（手のジェスチャーなど）です。

Gemini は、各イベントを評価して、ユーザーの問い合わせに関連するかどうかを判断します。たとえば、手のジェスチャーやフィラーワードは関連性がない可能性があるため、Gemini はこれらのイベントを処理しません。
関連するイベントごとに、Gemini は関数呼び出しを有効にして、追加のコンテキストが必要かどうかを評価します。追加のコンテキストが必要かどうかに応じて、Gemini またはアーキテクトエージェントがディスパッチャーエージェントに応答を返します。
1. コンテキストがさらに必要な場合、Gemini はアーキテクトのエージェントカードを検索して、リクエストの構造化方法を把握します。
2. Gemini は、構造化されたリクエストをディスパッチャーエージェントに送信します。リクエストには、商品タイプ、モデル番号、イベントタイプ、属性などのイベントの詳細が含まれます。
3. ディスパッチャーエージェントは、Agent2Agent（A2A）プロトコルを使用して、構造化されたリクエストをアーキテクトエージェントに送信します。
4. アーキテクトエージェントは、サーバーレス VPC アクセスコネクタを介してクエリを送信します。コネクタを使用すると、エージェントはこのアーキテクチャのストレージリソースに使用される Virtual Private Cloud（VPC）ネットワーク内のリソースに安全にアクセスできます。
5. サーバーレス VPC アクセスコネクタは、 Memorystore for Redis Cluster に保存されているキャッシュデータとやり取りします。データがキャッシュされたレイヤで使用できない場合、アーキテクトエージェントはナレッジデータベースをホストする Compute Engine インスタンスとやり取りします。
6. アーキテクトエージェントは、データキャッシュまたはナレッジデータベースから商品情報を受け取ります。アーキテクトエージェントは、Gemini に商品情報を送信して、回答を生成します。たとえば、「エラーコード 3B: ファンが故障しています。推奨される対応: 障害物がないか確認してください。」
7. アーキテクトエージェントは、商品情報をディスパッチャーエージェントに返送します。
コンテキストが不要な場合は、Gemini はユーザーのリクエストに対する回答を直接生成します。
ディスパッチャーエージェントは、Gemini またはアーキテクチャエージェントからレスポンスを受け取り、マルチモーダルレスポンスを生成します。
1. Gemini Live モデルと ADK run_live 関数を使用して、技術的なソリューションを含むマルチモーダルレスポンスを生成します。
2. レスポンスを Blob オブジェクトとして保存します。
3. ストリーミングバッファと永続的な WebSocket 接続を介して技術的なソリューションを送信し、クライアントダッシュボードに技術的なソリューションを配信します。
クライアントダッシュボードは、技術ソリューションから Blob データを抽出し、ナレーション付きのガイダンスを即座に提供し、関連する文字起こしで UI を更新します。アクティブな双方向ストリームが維持されたまま、リクエストループが完了します。

安全性モニタリングワークフロー

次の図は、安全性モニタリングワークフローの詳細なアーキテクチャを示しています。

上の図は、次のデータフローを示しています。

クライアントダッシュボードは、フロントエンドとバックエンドサーバーの間に永続的な WebSocket 接続を確立して、ライブ動画ストリームを監視します。WebSocket メッセージは、この未加工のマルチメディアデータを Blob オブジェクトにパッケージ化し、ADK LiveRequestQueue コンポーネントを使用して、ストリーミングバッファに継続的に送信します。
ストリーミングバッファは、入力ストリームを、連続したバックグラウンドループで実行され、動画フレーム内の危険を検出するストリーミングツールに転送します。
ストリーミングツールは、ストリーミングバッファから最新の動画フレームを Gemini に送信します。
Gemini は、明るい光や蒸気などの危険がないか動画フレームを監視します。
- 危険が検出されなかった場合は、何も起こりません。
- 危険が検出されると、Gemini は危険の種類、属性、場所を含むマルチモーダルレスポンスを生成し、Blob オブジェクトとして保存します。Gemini は、危険警告のレスポンスをストリーミングツールに返送します。
ストリーミングツールは、危険警告レスポンスをストリーミングバッファに転送します。
ストリーミングバッファは、永続的な WebSocket 接続を使用して、技術ソリューションをクライアントダッシュボードに配信します。
クライアントダッシュボードは、技術ソリューションから Blob データを抽出し、ナレーション付きのガイダンスを即座に提供し、関連する文字起こしで UI を更新します。これにより、アクティブな双方向ストリームを維持しながら、リクエストループが完了します。

使用するプロダクト

このリファレンスアーキテクチャでは、次の Google Cloud プロダクトとツールを使用します。

Cloud Run: Google のスケーラブルなインフラストラクチャ上でコンテナを直接実行できるマネージドコンピューティングプラットフォーム。
Gemini : Google が開発したマルチモーダル AI モデルのファミリー。

Gemini Enterprise Agent Platform: エンタープライズグレードの AI エージェントを構築、スケーリング、管理、最適化できる包括的なプラットフォーム。
Agent Development Kit（ADK）: AI エージェントの開発、テスト、デプロイを行うためのツールとライブラリのセット。
Agent2Agent（A2A）プロトコル: プログラミング言語やランタイムに関係なく、エージェント間の通信と相互運用を可能にするオープンプロトコル。
サーバーレス VPC アクセス: サーバーレス環境を Virtual Private Cloud ネットワーク内のリソースに接続できるサービス。
Virtual Private Cloud（VPC）: Google Cloud ワークロードにグローバルでスケーラブルなネットワーキング機能を提供する仮想システム。VPC には、VPC ネットワークピアリング、Private Service Connect、プライベートサービスアクセス、共有 VPC が含まれます。
Memorystore for Redis Cluster: Redis 向けのフルマネージドのインメモリデータストアサービス。
Compute Engine: Google のインフラストラクチャで VM を作成して実行できる、安全でカスタマイズ可能なコンピューティングサービス。

フレームワーク、Agent Runtime、ツール、メモリ、設計パターンなど、エージェント型 AI システムの代替コンポーネントの選択については、エージェント型 AI アーキテクチャコンポーネントを選択するをご覧ください。

ユースケース

このリファレンスアーキテクチャは、継続的な双方向マルチモーダルデータストリームのリアルタイム合成を必要とするユースケース向けに設計されています。このドキュメントで説明するアーキテクチャのユースケースの例を次に示します。

産業製造と現場メンテナンス: スマートグラスからライブ音声と動画を処理する AI アシスタントを技術者に提供することで、複雑な機械のハンズフリー修理を可能にします。技術者は AI アシスタントと会話して、マシンの回路図を取得します。AI アシスタントは、プロダクトドキュメントにアクセスする内部データベースエージェントを使用して、根拠のある修理と組み立ての手順を確保します。同時実行のバックグラウンドビジョンツールは、双方向ストリームをモニタリングし、機械的な危険や誤った組み立て手順を技術者に事前に警告します。
リモートテクニカルサポート: ユーザーがライブの電話カメラフィードをマルチモーダルエージェント型 AI システムと共有できるようにすることで、お客様のトラブルシューティングの成果を向上させます。双方向ストリーミングアーキテクチャは、システムがハードウェアをリアルタイムで監視する動的な会話をサポートします。バックグラウンドのビジョンプロセスが、ケーブルが間違ったポートに接続されているなどの接続不良を特定した場合、システムは低遅延ストリームを使用して、ユーザーに修正ガイダンスを直ちに表示します。

設計上の考慮事項

以降のセクションでは、AI エージェントを設計し、このアーキテクチャを本番環境に実装するための一般的な推奨事項について説明します。

AI エージェントの設計

エージェントの費用とパフォーマンスを改善するには、次の推奨事項を検討してください。

制御ループスクリプト: 双方向のライブエージェントのシステムプロンプトを、単なる個性ガイドラインではなく、厳格なステートマシン動作ループとして記述します。システムプロンプトで、トリガーされるまでエージェントを無音状態にするよう明示的に指示する必要があります。音声操作が簡潔で自然になるように、簡潔で行動を優先した回答を強制する必要があります。
関心の分離: 専用のバックグラウンドストリーミングツールを使用して、メインエージェントとは別に動画フィードをモニタリングします。アーキテクチャのルートエージェントは双方向であり、自身の発話を即座に中断して、これらの重要な安全に関する警告をユーザーにブロードキャストできます。また、1 つのエージェントに動画フィードの継続的なモニタリングを依頼すると、認知過負荷や幻覚につながる可能性があります。
費用対効果の高いプロンプト: プロンプト（入力）の長さと生成されたレスポンス（出力）は、パフォーマンスと費用に直接影響します。短く、直接的で、十分なコンテキストを提供するプロンプトを作成します。モデルから簡潔な回答を得られるようにプロンプトを設計します。たとえば、「2 文で要約して」や「3 つの要点をリストアップして」などのフレーズを含めます。詳細については、プロンプト設計のベストプラクティスをご覧ください。

本番環境の設計

このアーキテクチャを本番環境に実装する場合は、次の推奨事項を検討してください。

上り（内向き）セキュリティ: アプリケーションへのアクセスを制御するには、フロントエンド Cloud Run サービスのデフォルトの run.app URL を無効にして、リージョン外部アプリケーションロードバランサを設定します。ロードバランサは、アプリケーションへの受信トラフィックのロードバランシングとともに、SSL 証明書の管理も処理します。保護を強化するために、Google Cloud Armor セキュリティポリシーを使用して、サービスにリクエストフィルタリング、DDoS 保護、レート制限を提供できます。
アクセス制御: トポロジ内のリソースの権限を構成する場合は、最小権限の原則に従います。
非同期バッファリング: 入力される音声パケットと動画パケットをモデルの推論エンジンから切り離すには、スレッドセーフな非同期の先入れ先出し（FIFO）バッファを使用します。このバッファは、ユーザーインターフェースがフリーズすることなく、ユーザーの中断にシステムが応答し続けるようにするマルチプレクサとして機能します。
データの取り込み費用: トークン費用を削減し、コンテキストウィンドウの枯渇を防ぐには、1 秒あたり 2 フレームなどの低頻度のフレームサンプリングを使用し、すべてのデータを Base64 JPEG ファイルに圧縮します。
インメモリキャッシュ: ミリ秒未満の読み取り速度を実現するには、アーキテクトエージェントの概略図の保管庫にインメモリの Memorystore for Redis Cluster データベースを使用します。この実装により、レイテンシが最小限に抑えられ、リアルタイムの音声インタラクション中の無音状態が回避され、スケーラブルな単一の情報源が提供されます。
WebSocket のセキュリティ: すべての双方向 WebSocket 接続に TLS 暗号化を適用して、音声プリントや動画などの機密性の高いマルチモーダルデータを保護します。
安全な A2A 通信:
- 認証済みの拡張エージェントカードを使用して、A2A 通信を保護します。
- OpenID Connect（OIDC）ID トークンをリクエストに付加します。OIDC ID トークンを使用すると、Identity and Access Management（IAM）を使用して、承認されたエージェントのみがデータにアクセスすることを確認できます。
リソース割り当て: パフォーマンス要件に応じて、Cloud Run サービスに割り当てるメモリ上限と CPU 上限を構成します。

マルチエージェント AI システムの構築とデプロイに関する設計要因、ベストプラクティス、推奨事項の詳細については、 Google Cloudのマルチエージェント AI システムをご覧ください。

デプロイ

このアーキテクチャのサンプル実装をデプロイするには、次の Codelab をお試しください。

ADK 双方向ストリーミングエージェントの構築 Codelab: ライブ動画ストリームを処理して特定のユーザージェスチャーを認識する単一エージェント AI システムを構築します。
ライブ双方向マルチエージェントシステム Codelab: 双方向ストリーミングを使用して、リアルタイムの音声と動画のやり取りを行うマルチエージェント AI システムを構築します。このシステムには、安全性を継続的にモニタリングするためのプロアクティブなストリーミングツールが含まれています。

次のステップ

詳しくは、ライブセッションを開始、管理するをご覧ください。
ADK Gemini Live API ツールキットの概要をご覧ください。
Cloud Run で AI エージェントをホストする方法を学習する。
エージェント型 AI アーキテクチャのコンポーネントを選択する方法について説明します。
Gemini Enterprise Agent Ready（GEAR）を使用してエンタープライズグレードのエージェントを構築、デプロイするための学習リソースを確認する。
その他のエージェント AI アーキテクチャガイドを確認する。
Google Cloudの AI ワークロードと ML ワークロードに固有のアーキテクチャ原則と推奨事項の概要について、Well-Architected Framework の AI と ML の視点を確認する。
Cloud アーキテクチャセンターで、リファレンスアーキテクチャ、図、ベストプラクティスを確認する。

寄稿者

著者:

Christina Lin | デベロッパーリレーションズエンジニアマネージャー
Samantha He | テクニカルライター

その他の寄稿者:

Kumar Dhanagopal | クロスプロダクトソリューションデベロッパー
Olivier Bourgeois | デベロッパーリレーションズエンジニア

エージェント型 AI のユースケース: ライブの双方向マルチモーダル ストリーミングを有効にする コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。