RAG 対応生成 AI アプリケーションのプライベート接続

Last reviewed 2025-12-12 UTC

このドキュメントでは、検索拡張生成（RAG）対応のアプリケーションのネットワークインフラストラクチャの保護に役立つリファレンスアーキテクチャについて説明します。通常、RAG アーキテクチャには、データ処理とコンテンツ取得のフローを処理するための個別のサブシステムが含まれています。このリファレンスアーキテクチャは、共有 VPC を使用して次の操作を行う方法を示しています。

Identity and Access Management（IAM）の権限を使用して、サブシステム間の分離を作成します。
プライベート IP アドレスを使用してアプリケーションコンポーネントを接続します。

このドキュメントは、アーキテクト、デベロッパー、ネットワーキング管理者、セキュリティ管理者を対象としています。このドキュメントは、ネットワーキングに関する基本的な知識があることを前提としています。このドキュメントでは、RAG ベースのアプリケーションの作成については説明しません。

アーキテクチャ

次の図は、このドキュメントで説明するネットワーキングアーキテクチャを示しています。

RAG を使用するアプリケーションのネットワーキングアーキテクチャ。

ネットワーキングアーキテクチャの接続とトラフィックフロー。

上記の図のアーキテクチャには、次のコンポーネントが示されています。

コンポーネント	目的
外部ネットワーク（オンプレミスまたは別のクラウド）	未加工の RAG データをアップロードするデータエンジニアにネットワーク接続を提供します。外部ネットワーク接続を終了します。外部ルーターをホストします。 Google Cloud ルーティング Virtual Private Cloud（VPC）ネットワーク内の Private Service Connect エンドポイントへの接続を提供します。 Private Service Connect エンドポイントを指す DNS サーバーが含まれます。
ルーティングプロジェクト	ルーティング VPC ネットワークをホストします。このネットワークは、Cloud Interconnect または HA VPN 接続を介して外部ネットワークに接続します。外部ネットワーク、ルーティング VPC ネットワーク、共有 VPC ネットワークを相互に接続する Network Connectivity Center ハブをホストします。リージョン Cloud Storage エンドポイントに接続する Private Service Connect エンドポイントをホストします。このエンドポイントを使用すると、データエンジニアは RAG データを Cloud Storage バケットにアップロードできます。
RAG 共有 VPC ホストプロジェクト	フロントエンドサービスロードバランサと、VPC ネットワークを必要とするその他のサービスをホストする共有 VPC ネットワークをホストします。すべてのサービスプロジェクトがその共有 VPC ネットワークにアクセスできます。
データ取り込みサービスプロジェクト	元データの入力用の Cloud Storage バケットが含まれています。データ取り込みサブシステムが含まれます。これには次のコンポーネントが含まれます。取り込み処理: 未加工データを読み取って処理します。取り込み出力: 最終的なデータストアに書き込みます。
サービングサービスプロジェクト	サービングサブシステムが含まれています。このサブシステムには、推論とインタラクションのサービスと機能を提供する次のコンポーネントが含まれています。データ取り込みサブシステムの出力を含む RAG データストア。推論クエリと RAG データストアのデータを組み合わせてモデルにフィードするサービングプロセス。サービングサブシステムがアップロードされた RAG データからベクトルを作成し、エンドユーザーのリクエストを処理するために使用するモデル。
フロントエンドサービスプロジェクト	Cloud Run または Google Kubernetes Engine（GKE）で実行されるユーザーインタラクションサービスの前に配置されたロードバランサであるサービングサブシステムが含まれています。このプロジェクトには、サービスへのアクセスを制限する Google Cloud Armor も含まれています。インターネットからアクセスできるようにする場合は、リージョン外部アプリケーションロードバランサを追加できます。
VPC Service Controls の境界	データの引き出しから保護します。Cloud Storage バケットに保存されているデータは、境界外にコピーできません。また、コントロールプレーンオペレーションは保護されます。

以降のセクションでは、アーキテクチャ内の接続とトラフィックフローについて説明します。

コンポーネント間の接続

このセクションでは、このアーキテクチャのコンポーネントとネットワーク間の接続について説明します。

外部ネットワークからルーティング VPC ネットワーク

外部ネットワークは、Cloud Interconnect または HA VPN を介して Google Cloud ルーティング VPC ネットワークに接続します。これらは、Network Connectivity Center ハブのハイブリッドスポークです。

ルーティング VPC ネットワーク内の Cloud Router と外部ネットワーク内の外部ルーターは、Border Gateway Protocol（BGP）ルートを交換します。

外部ネットワーク内のルーターは、外部サブネットのルートをルーティング VPC Cloud Router に通知します。ルートの優先度は、BGP 指標と属性を使用して表現できます。
ルーティング VPC ネットワーク内の Cloud Router は、 Google Cloudの VPC 内のプレフィックスのルートを外部ネットワークにアドバタイズします。

VPC ネットワークから共有 VPC ネットワークへのルーティング

Network Connectivity Center ハブの Network Connectivity Center VPC スポークを使用して、ルーティング VPC ネットワークと RAG VPC ネットワークを接続します。ハブは、外部ネットワークへのハイブリッドスポークもホストします。

共有 VPC ネットワーク内のリソース間

この設計では、Cloud Storage バケットが外部ネットワークからデータを受信します。推論リクエストは、リージョン内部アプリケーションロードバランサを介して送信されます。システムの残りの部分については、次のオプションがあります。

Cloud Storage バケット、Vertex AI、Cloud Run、Pub/Sub など、Google SaaS インフラストラクチャにすべてをホストします。この場合、コンポーネントは限定公開の Google インフラストラクチャを介して通信します。
Compute Engine VM、GKE クラスタ、Cloud SQL データベース、または VPC ネットワークで実行されるその他のコンポーネントで実行されるワークロードにすべてをホストします。この場合、システムは、Network Connectivity Center または VPC ネットワークピアリングを介してリンクするネットワーク間でプライベート IP アドレスを使用して通信します。
フルマネージドサービス、プラットフォームサービス、インフラストラクチャサービスを組み合わせて使用します。この場合、次の方法で VPC ネットワークとフルマネージドサービス間の接続を確立できます。
- 限定公開の Google アクセス: この方法では、外部 IP アドレスを持たず、VPC ネットワークで実行されているワークロードが Google API にアクセスできます。このアクセスは Google インフラストラクチャを介して内部的に行われ、このプロセスでは、このようなトラフィックがインターネットに公開されることはありません。
- Private Service Connect: この方法では、マネージド VPC ネットワークでホストされている AlloyDB for PostgreSQL などのサービス用に、サービスプロジェクトにエンドポイントを作成できます。

外部ネットワークからフロントエンドサービスロードバランサ

リージョン内部アプリケーションロードバランサのエンドポイントは、RAG ネットワーク内の IP アドレスです。RAG ネットワーク、ルーティングネットワーク、外部ネットワークへのハイブリッド接続はすべて、同じ Network Connectivity Center ハブのスポークです。したがって、Network Connectivity Center にすべてのスポークサブレンジをハブにエクスポートするように指示できます。ハブは、これらのサブレンジを他のスポークネットワークに再エクスポートします。これにより、システムのエンドユーザーは外部ネットワークからロードバランスされたサービスにアクセスできます。

トラフィックフロー

このリファレンスアーキテクチャのトラフィックフローには、RAG データフローと推論フローが含まれます。

RAG の人口フロー

このフローは、データエンジニアからベクトルストレージまで、RAG データがシステムを通過する流れを示しています。

外部ネットワークから、データエンジニアは Cloud Interconnect 接続または Cloud VPN 接続を介して未加工データをアップロードします。データは、ルーティング VPC ネットワークの Private Service Connect エンドポイントにアップロードされます。
データは Google の内部インフラストラクチャを介して、データ取り込みサービスプロジェクトの Cloud Storage バケットに転送されます。
データ取り込みサービスプロジェクト内では、次のいずれかの方法でシステム間でデータが移動します。
- 限定公開の Google アクセス
- Private Service Connect エンドポイント
- Google のインフラストラクチャを直接使用する
この方法は、システムがGoogle Cloud VPC ネットワークでホストされているか、Google Cloudで直接ホストされているかによって異なります。このフローの一環として、データ取り込みサブシステムはチャンク化された RAG データをモデルにフィードし、モデルは各チャンクのベクトルを生成します。
データ取り込みサブシステムは、ベクトルデータとチャンク化されたデータを適切なデータストアに書き込みます。

推論フロー

このフローは、お客様からのリクエストについて説明しています。

外部ネットワークから、顧客がサービスの IP アドレスにリクエストを送信します。
リクエストは、Cloud Interconnect 接続または Cloud VPN 接続を介してルーティング VPC ネットワークに転送されます。
リクエストは、VPC スポーク接続を介して RAG VPC ネットワークに転送されます。
お客様のリクエストはロードバランサに届き、ロードバランサはリクエストをフロントエンドサブシステムに渡します。
フロントエンドサブシステムは、リクエストをサービングサブシステムに転送します。
サービングサブシステムは、データストアから関連するコンテキストデータを使用してリクエストを拡張します。
サービングサブシステムは、拡張プロンプトを AI モデルに送信します。AI モデルはレスポンスを生成します。

使用するプロダクト

このリファレンスアーキテクチャでは、次の Google Cloud プロダクトを使用します。

Virtual Private Cloud（VPC）: Google Cloud ワークロードにグローバルでスケーラブルなネットワーキング機能を提供する仮想システム。VPC には、VPC ネットワークピアリング、Private Service Connect、プライベートサービスアクセス、共有 VPC が含まれます。
共有 VPC: Virtual Private Cloud の機能。このネットワークの内部 IP アドレスを使用して、複数のプロジェクトのリソースを共通の VPC ネットワークに接続できます。
Private Service Connect: コンシューマーが VPC ネットワーク内からマネージドサービスにプライベート接続でアクセスできるようにする機能。
限定公開の Google アクセス: 外部 IP アドレスを持たない VM インスタンスが Google API とサービスの外部 IP アドレスにアクセスできるようにする機能。
Cloud Interconnect: 高可用性で低レイテンシの接続を通じて、外部ネットワークを Google ネットワークに拡張するサービス。
Cloud VPN: IPsec VPN トンネルを介してピアネットワークを Google のネットワークに安全に拡張するサービス。
Cloud Router: Border Gateway Protocol（BGP）のスピーカー機能とレスポンダー機能を提供する、分散型のフルマネージドサービスです。Cloud Router は、Cloud Interconnect、Cloud VPN、ルーターアプライアンスと連携して、BGP で受信したルートやカスタム学習ルートに基づいて VPC ネットワークに動的ルートを作成します。
Network Connectivity Center: ハブと呼ばれる一元管理リソースに接続されているスポークリソース間のネットワーク接続を簡素化するオーケストレーションフレームワーク。
VPC Service Controls: Google Cloud リソースのデータ引き出しのリスクを最小限に抑えるマネージドネットワーキング機能。
Cloud Load Balancing: 高パフォーマンスでスケーラブルなグローバルロードバランサとリージョンロードバランサのポートフォリオ。
Model Armor: プロンプトインジェクション、センシティブデータの漏洩、有害なコンテンツから生成 AI リソースとエージェント AI リソースを保護するサービス。
Google Cloud Armor: ウェブアプリケーションファイアウォール（WAF）ルールを提供し、DDoS 攻撃やアプリケーション攻撃から保護するネットワークセキュリティサービス。
Cloud Storage: 低コストで無制限のオブジェクトストア。さまざまなデータ型に対応しています。データには Google Cloudの内部および外部からアクセスでき、冗長性を確保するために複数のロケーションに複製されます。

ユースケース

このアーキテクチャは、システム全体の入力、出力、内部通信でプライベート IP アドレスを使用し、インターネットを通過しないようにする必要があるエンタープライズシナリオ向けに設計されています。

プライベート入力: アップロードされたデータはインターネット経由で送信されません。代わりに、Cloud Storage バケットを Google Cloudルーティング VPC ネットワークの Private Service Connect エンドポイントの背後にホストします。プライベート IP アドレスのみを使用して、Cloud Interconnect または Cloud VPN 接続経由で RAG データをコピーします。
プライベートサービス間接続: サービスは、Google の内部インターフェースまたは VPC ネットワークの内部にあるプライベートアドレスを介して相互に通信します。
プライベート出力: そのアクセスを設定しない限り、推論結果はインターネット経由でアクセスできません。デフォルトでは、指定された外部ネットワーク内のユーザーのみがサービスのプライベートエンドポイントにアクセスできます。

代替案を設計する

このセクションでは、 Google Cloudの RAG 対応アプリケーションで検討できる代替のネットワーク設計アプローチについて説明します。

サービスを一般公開する

このドキュメントに示すアーキテクチャでは、内部ネットワークのユーザーのみがアプリケーションにクエリを送信できます。アプリケーションがインターネット上のクライアントからアクセスできるようにする必要がある場合は、リージョン外部アプリケーションロードバランサを使用します。

GKE Inference Gateway を使用する

フロントエンドサブシステムが GKE で実行されている場合は、アプリケーションロードバランサの代わりに Inference Gateway を使用できます。

設計上の考慮事項

このセクションでは、RAG 対応アーキテクチャのプライベート接続をサポートするネットワーキングのデプロイに役立つ追加のガイダンスを提供します。このガイダンスは、セキュリティとコンプライアンス、信頼性、費用、パフォーマンスに関する特定の要件を満たすのに役立ちます。このセクションのガイダンスはすべてを網羅しているわけではありません。特定のデプロイでは、このセクションで説明されていない追加の設計要素を考慮する必要がある場合があります。

セキュリティ、プライバシー、コンプライアンス

ほとんどの場合、AI モデルの前に Model Armor をデプロイして、インバウンドプロンプトとアウトバウンド結果の両方を評価します。Model Armor は、潜在的なリスクを防ぎ、責任ある AI の実践を確保するのに役立ちます。

不適切なリクエストがサービングサブシステムに到達する前に拒否するには、Model Armor をロードバランサに接続します。

このアーキテクチャでは、VPC Service Controls を使用して、データの不正な引き出しを防ぎます。

この設計では、確立されたセキュリティ原則を使用して、RAG ワークロードの保護に役立てます。AI ワークロードと ML ワークロードに固有のセキュリティの原則と推奨事項については、Well-Architected Framework の AI と ML の視点: セキュリティをご覧ください。

費用の最適化

AI ワークロードと ML ワークロードに固有の費用最適化の原則と推奨事項については、Well-Architected Framework の AI と ML の視点: 費用の最適化をご覧ください。

パフォーマンスの最適化

AI ワークロードと ML ワークロードに固有のパフォーマンス最適化の原則と推奨事項については、Well-Architected Framework の AI と ML の視点: パフォーマンスの最適化をご覧ください。

デプロイ

このセクションでは、アプリケーションを作成する手順について説明します。

ワークロードのリージョンを特定します。
Google Cloud プロジェクトと VPC ネットワークを作成する。
外部ネットワークをルーティング VPC ネットワークに接続します。
Network Connectivity Center を使用してネットワークをリンクする。
RAG デプロイのコンポーネントを特定してサービスアカウントを作成する。
VPC Service Controls を構成する。
データ取り込みサブシステムを構築する。
サービングサブシステムを構築する。
フロントエンドサブシステムをビルドします。
アプリケーションをインターネットからアクセスできるようにする。

ワークロードのリージョンを特定する

一般に、接続、VPC サブネット、ワークロードは、オンプレミスネットワークまたは他のクラウドクライアントの近くに配置します。 Google Cloudワークロードのリージョンを選択する方法の詳細については、Google Cloud リージョン選択ツールと Compute Engine のリージョン選択に関するベストプラクティスをご覧ください。

Google Cloud プロジェクトと VPC ネットワークを作成する

組織で分散アプリケーション用の Cross-Cloud Network がすでに設定されている場合、ルーティングプロジェクトとルーティング VPC ネットワークはすでに存在しているはずです。

次の順序で Google Cloud プロジェクトと VPC ネットワークを作成します。

ルーティングプロジェクトを作成します。
限定公開の Google アクセスが有効になっているルーティング VPC ネットワークを作成します。
RAG プロジェクトを作成します。
RAG プロジェクトを共有 VPC ホストプロジェクトに昇格させます。
データ取り込みサービスプロジェクトを作成します。
サービングサービスプロジェクトを作成します。
フロントエンドサービスプロジェクトを作成します。
限定公開の Google アクセスを有効にして、共有 VPC RAG ネットワークを作成します。
サービスプロジェクトに RAG ネットワークの使用権限を付与します。

外部ネットワークをルーティング VPC ネットワークに接続する

分散型アプリケーション向けの Cross-Cloud Network をすでに設定している場合は、この手順をスキップできます。

外部ネットワークとルーティングネットワーク間の接続を設定します。関連するテクノロジーについては、外部接続とハイブリッド接続をご覧ください。接続プロダクトの選択方法については、ネットワーク接続プロダクトの選択をご覧ください。

Network Connectivity Center を使用してネットワークをリンクする

ルーティングプロジェクトで、Network Connectivity Center ハブを作成します。
Cloud Interconnect 接続を VLAN アタッチメントスポークとして追加するか、Cloud VPN 接続を VPN スポークとして追加します。
RAG VPC ネットワークとルーティング VPC ネットワークを VPC スポークとしてハブに追加します。

RAG デプロイのコンポーネントを特定してサービスアカウントを作成する

RAG デプロイを選択し、必要なコンポーネントのリストを作成します。
各コンポーネントに必要なアクセス権を特定します。
コンポーネントごとに、適切な権限を持つサービスアカウントを作成します。場合によっては、コンポーネントに別のサービスプロジェクトからの読み取りまたは書き込み権限を付与することになります。

この設計では、Cloud Storage バケットをデータ入力コンポーネントとして使用し、推論フロントエンドでロードバランサを使用することを前提としています。残りの設計は必要に応じて変更できます。

理想的には、各コンポーネントは独自のサービスアカウントとして実行されます。各コンポーネントに、必要な機能を実行するために必要な最小限の IAM 権限のみが付与されていることを確認します。たとえば、データ取り込みサブシステムの Cloud Run ジョブは、入力 Cloud Storage バケットから読み取る必要がありますが、バケットに書き込む必要はありません。この例では、Cloud Run ジョブを実行するサービスプロジェクトには、バケットからの読み取りのみを行う権限が必要です。書き込み権限は必要ありません。

VPC Service Controls を構成する

デプロイの周囲に VPC Service Controls の境界を作成します。
アクセスルールを構成する。

データ取り込みサブシステムを構築する

データ取り込みサブシステムは、データエンジニアから未加工のデータを取得し、サービングサブシステムで使用できるように処理します。

データ取り込みサービスプロジェクトで、Cloud Storage バケットを作成します。
ルーティング VPC ネットワークで、リージョン Private Service Connect エンドポイントを作成し、エンドポイントをバケットに接続します。
外部ネットワークで、前の手順で生成された IP アドレスと URL を使用して、エンドポイントの DNS エントリを追加します。
エンドポイントの IP アドレスへのアクセスを許可するように、外部ネットワークのファイアウォールルールを更新します。
データ取り込みサービスプロジェクトで、選択した RAG アーキテクチャに従って、残りの取り込みパイプラインを構築します。
取り込みパイプライン内の関連リソースがベクトルを生成するモデルにアクセスできるように、IAM 権限を付与します。
取り込みパイプライン内の関連リソースがベクトルデータストアに書き込めるように、IAM 権限を付与します。

サービングサブシステムをビルドする

サービングサービスプロジェクトで、サービングパイプラインを構築します。
フロントエンドシステムのサービスアカウントがサービングサブシステムの出力にアクセスできるように、IAM 権限を付与します。

フロントエンドサブシステムをビルドする

このセクションでは、Cloud Run の前にサーバーレス NEG を使用するリージョン内部アプリケーションロードバランサを使用することを前提としています。ただし、別のロードバランサとバックエンドを使用することはできます。

フロントエンドシステムのコードを作成します。
フロントエンドサービスプロジェクトで、ロードバランスされたフロントエンドシステムをデプロイします。これには、Cloud Armor セキュリティポリシーを構成するオプションの手順が含まれます。
ルーティング VPC ネットワークで Cloud Router を構成して、RAG VPC ネットワークからオンプレミスルーターにルートを転送します。この構成により、クライアントはロードバランサにアクセスできます。
外部ネットワークで、ロードバランサのフロントエンドが外部ネットワークから到達できるようにファイアウォールルールを構成します。
外部ネットワークで、ロードバランサの転送ルールを指すように DNS を更新します。

アプリケーションをインターネットからアクセスできるようにする

このセクションは省略可能です。

この設計では、サービスに外部ネットワークからのみアクセスできるようにすることを前提としていますが、インターネットからサービスにアクセスできるようにすることもできます。

インターネットからサービスにアクセスできるようにする手順は次のとおりです。

内部ロードバランサが指すバックエンドと同じバックエンドを指すリージョン外部アプリケーションロードバランサを作成します。省略可能な手順を完了して、Cloud Armor セキュリティポリシーを構成します。
サービスのお客様がバックエンドサービスにアクセスできるように、VPC Service Controls を更新します。

次のステップ

分散型アプリケーション向けのクロスクラウドネットワークについて学習する。
Cloud Run で AI アプリとエージェントをホストする方法を学習する。
責任ある AI のベストプラクティスと Vertex AI の安全フィルタについて学習する。
大規模言語モデル（LLM）のベストプラクティスについて学習する。
Google Cloudの AI ワークロードと ML ワークロードに固有のアーキテクチャ原則と推奨事項の概要について、Well-Architected Framework の AI と ML の視点を確認する。
Cloud アーキテクチャセンターで、リファレンスアーキテクチャ、図、ベストプラクティスを確認する。

寄稿者

著者:

Deepak Michael | ネットワーキングスペシャリストカスタマーエンジニア
Mark Schlagenhauf | テクニカルライター、ネットワーキング

その他の寄稿者:

Kumar Dhanagopal | クロスプロダクトソリューションデベロッパー
Victor Moreno | プロダクトマネージャー、クラウドネットワーキング
Samantha He | テクニカルライター
Ammett Williams | デベロッパーリレーションズエンジニア
Aspen Sherrill | クラウドセキュリティアーキテクト

RAG 対応生成 AI アプリケーションのプライベート接続 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。