Vertex AI RAG Engine のデプロイモード

Vertex AI RAG Engine には、RAG インスタンスを運用するためのさまざまなデプロイモードが用意されています。デプロイモードの選択によって、データの保存場所、データの増加に伴うストレージのスケーリング方法、必要なインフラストラクチャ管理のレベルが決まります。これらのモードの動作を理解することで、プロジェクトのシンプルさ、スケーラビリティ、費用のバランスを適切に選択できます。

Vertex AI RAG Engine には、サーバーレスと Spanner の 2 つのデプロイモードがあります。両方のモードをシームレスに切り替えることができます。各モード内のデータは、他のモードから分離されたままになります。

利用可能なデプロイモード

このセクションでは、Vertex AI RAG Engine で使用できる 2 つのデプロイモードについて説明します。

サーバーレスモード

サーバーレスモードは、Vertex AI RAG Engine を始める最も手頃でおすすめの方法です。データベースのプロビジョニングとスケーリングをすべて抽象化する、フルマネージドのプラネットスケールのエンタープライズ対応データベースを提供します。

最適な対象: ほとんどのユーザー、迅速なオンボーディング、インフラストラクチャ構成の管理を必要としないシームレスなスケーリング。
主な機能: 階層管理は不要です。RAG が管理する Vertex AI ベクトル検索がデフォルトのベクトルデータベースとして自動的に使用されるため、すぐに使用できる効率的な RAG エクスペリエンスが提供されます。

サーバーレスモードでは、RAG マネージドデータベースは RAG ビジネスオペレーションの管理と RAG リソースの保存に使用されます。これらのリソースには、RagCorpus、RagFiles、RagMetadata、DataSchema などがありますが、これらに限定されません。ただし、エンベディングインデックス登録とベクトル検索には使用できなくなります。

ユーザーは常に別のベクトルデータベースを個別に選択する必要があります。サーバーレスモードでは、デフォルトで、Vertex AI RAG Engine は、エンベディングインデックスとベクトル検索用に、プロジェクトに Vertex AI ベクトル検索 2.0 コレクションをプロビジョニングします。Spanner モードと比較して、プロジェクトで Vertex AI Vector Search 2.0 をプロビジョニングすると、ベクトル DB の使用量と費用を完全に可視化して制御できます。詳細な比較については、Spanner モードとサーバーレスモードをご覧ください。

Spanner モード

Spanner モードでは、Vertex AI RAG Engine デプロイの基盤として機能するように、専用の Spanner インフラストラクチャが割り当てられます。これは、特定のコンプライアンス機能（CMEK など）や専用の分離されたデータベースインスタンスを必要とするワークロード向けに設計されています。モードの選択が明示的に選択されていない場合、Spanner モードがデフォルトとして割り当てられます。

Spanner モードを使用する場合は、パフォーマンスティアを選択してインフラストラクチャを管理する必要があります。

ベーシックティア（デフォルト）: 費用対効果が高く、コンピューティングパフォーマンスが低い固定ティア。テスト、小規模なデータサイズ、レイテンシの影響を受けにくいワークロードに適しています。
スケーリングティア: 自動スケーリング機能とともに本番環境規模のパフォーマンスを提供します。大量のデータを処理するワークロードやパフォーマンスが重要なワークロードに適しています。

データの分離とモードの切り替え

Vertex AI RAG Engine では、アクティブなデプロイモードで進行中のオペレーションがない限り、プロジェクトのデプロイモードを切り替えることができます。両方のモードでデータを保持できます。ただし、一度にアクティブにできるモードは 1 つのみで、データはデプロイモード間で厳密に分離されます。

便利なツールとして、プロジェクトに 2 つの完全に分離されたバックエンドがあるかのように動作すると考えてください。作成したリソース（コーパス、インポートおよびアップロードされたファイル、解析されたエンベディング）は、作成時にアクティブだったデプロイモードに永続的に関連付けられます。直接または Gemini を介して行われる取得リクエストも、現在のデプロイモードで利用可能なコーパスとファイルに限定されます。2 つのモードを切り替えても、データが移動したり、他のモードのデータが削除されたりすることはありません。

/vertex-ai/images/rag-engine-deployment-modes.png

図に示すように:

統合 API: まったく同じ Vertex AI RAG API を使用して、リソースを作成して管理します。API は、アクティブなデプロイモードに関連付けられているバックエンドにリクエストを自動的にルーティングします。
公開設定: サーバーレスモードが有効になっている場合、アプリケーションは RagCorpus A と B のみを認識して操作できます。Spanner モードで作成された RagCorpus C は安全に保存されますが、プロジェクトのモードを Spanner に戻すまで完全に非表示になり、アプリケーションからアクセスできなくなります。
データ損失なし: モードを切り替えてもデータは削除されません。API が参照する「バックエンド」を変更するだけです。

デプロイモードを管理する

デプロイモードはプロジェクトレベルの設定です。現在のモードは、GetRagEngineConfig API と UpdateRagEngineConfig API を使用して表示または変更できます。デプロイモードの切り替え方法と、Spanner モードに適した階層の選択方法については、モードの切り替えをご覧ください。

データを削除して課金を停止する

データはモード間で分離されているため、リソースのクリーンアップと課金の停止のプロセスは、データの保存場所によって若干異なります。

サーバーレスデータを削除するには: アクティブモードがサーバーレスに設定されていることを確認します。ListRagCorpora API を呼び出してリソースを表示し、DeleteRagCorpus API を使用して各コーパスを手動で削除します。
Spanner データを削除するには（プロビジョニング解除）: アクティブモードが Spanner に設定されていることを確認します。RagEngineConfig を更新し、Spanner ティアを Unprovisioned に設定します。これにより、専用の Spanner インスタンスと、そのインスタンス内に保持されているすべての RAG データが直ちに削除され、Spanner モードに関連する課金が停止します。注: 未プロビジョニング階層を使用して削除されたデータは復元できません。

Spanner モードとサーバーレスモード

機能	サーバーレスモード	Spanner モード
費用	リソース管理とオーケストレーションは無料です。ベクトル DB は、ユーザーの選択に応じて直接課金されます。	料金は選択した階層によって異なります。リソース管理とオーケストレーションが含まれます。ベクトルデータベースの選択肢として `RagManagedDb` を使用するすべてのコーパスのベクトル DB の費用が対象となります。残りのコーパスについては、ユーザーが選択したデータベースに応じてベクトル DB に直接課金されます。
スケーリング	フルマネージド自動スケーリング	ティアの選択を構成する必要がありますが、自動スケーリングティアが用意されています。
分離	ストレージが分離されていない	ストレージとパフォーマンスの分離を提供します。
CMEK	現時点では CMEK はありません	CMEK のサポートを提供している
VPC Security Controls	サポート対象	サポート対象
サポートされているベクトル DB	`Managed Vertex AI Vector Search 2.0`（デフォルト） Pinecone Weaviate	`RagManagedDb`（デフォルト）マネージド Vertex AI Vector Search 2.0 Vertex AI Vector Search 1.0 Pinecone Weaviate

次のステップ

Vertex AI RAG Engine の使用を開始するには、RAG クイックスタートをご覧ください。
デプロイモードを変更したり、Spanner モードの階層を更新したりするには、モードの切り替えをご覧ください。
Spanner インスタンスを削除するには、未プロビジョニングティアに更新するをご覧ください。
Spanner モードの詳細については、Spanner モードの管理をご覧ください。
サーバーレスモードの詳細については、サーバーレスモードをご覧ください。
料金については、Vertex AI RAG Engine の課金をご覧ください。