Vertex AI RAG Engine のデプロイモード

Vertex AI RAG Engine には、RAG インスタンスを運用するためのさまざまなデプロイ モードが用意されています。デプロイ モードの選択によって、データの保存場所、データの増加に伴うストレージのスケーリング方法、必要なインフラストラクチャ管理のレベルが決まります。これらのモードの動作を理解することで、プロジェクトのシンプルさ、スケーラビリティ、費用のバランスを適切に選択できます。

Vertex AI RAG Engine には、サーバーレスと Spanner の 2 つのデプロイモードがあります。両方のモードをシームレスに切り替えることができます。各モード内のデータは、他のモードから分離されたままになります。

利用可能なデプロイモード

このセクションでは、Vertex AI RAG Engine で使用できる 2 つのデプロイモードについて説明します。

サーバーレス モード

サーバーレス モードは、Vertex AI RAG Engine を始める最も手頃でおすすめの方法です。データベースのプロビジョニングとスケーリングをすべて抽象化する、フルマネージドのプラネットスケールのエンタープライズ対応データベースを提供します。

  • 最適な対象: ほとんどのユーザー、迅速なオンボーディング、インフラストラクチャ構成の管理を必要としないシームレスなスケーリング。
  • 主な機能: 階層管理は不要です。RAG が管理する Vertex AI ベクトル検索がデフォルトのベクトル データベースとして自動的に使用されるため、すぐに使用できる効率的な RAG エクスペリエンスが提供されます。

サーバーレス モードでは、RAG マネージド データベースは RAG ビジネス オペレーションの管理と RAG リソースの保存に使用されます。これらのリソースには、RagCorpusRagFilesRagMetadataDataSchema などがありますが、これらに限定されません。ただし、エンベディング インデックス登録とベクトル検索には使用できなくなります。

ユーザーは常に別のベクトル データベースを個別に選択する必要があります。サーバーレス モードでは、デフォルトで、Vertex AI RAG Engine は、エンベディング インデックスとベクトル検索用に、プロジェクトに Vertex AI ベクトル検索 2.0 コレクションをプロビジョニングします。Spanner モードと比較して、プロジェクトで Vertex AI Vector Search 2.0 をプロビジョニングすると、ベクトル DB の使用量と費用を完全に可視化して制御できます。詳細な比較については、Spanner モードとサーバーレス モードをご覧ください。

Spanner モード

Spanner モードでは、Vertex AI RAG Engine デプロイの基盤として機能するように、専用の Spanner インフラストラクチャが割り当てられます。これは、特定のコンプライアンス機能(CMEK など)や専用の分離されたデータベース インスタンスを必要とするワークロード向けに設計されています。モードの選択が明示的に選択されていない場合、Spanner モードがデフォルトとして割り当てられます。

Spanner モードを使用する場合は、パフォーマンス ティアを選択してインフラストラクチャを管理する必要があります。

  • ベーシック ティア(デフォルト): 費用対効果が高く、コンピューティング パフォーマンスが低い固定ティア。テスト、小規模なデータサイズ、レイテンシの影響を受けにくいワークロードに適しています。
  • スケーリング ティア: 自動スケーリング機能とともに本番環境規模のパフォーマンスを提供します。大量のデータを処理するワークロードやパフォーマンスが重要なワークロードに適しています。

データの分離とモードの切り替え

Vertex AI RAG Engine では、アクティブなデプロイ モードで進行中のオペレーションがない限り、プロジェクトのデプロイ モードを切り替えることができます。両方のモードでデータを保持できます。ただし、一度にアクティブにできるモードは 1 つのみで、データはデプロイ モード間で厳密に分離されます。

便利なツールとして、プロジェクトに 2 つの完全に分離されたバックエンドがあるかのように動作すると考えてください。作成したリソース(コーパス、インポートおよびアップロードされたファイル、解析されたエンベディング)は、作成時にアクティブだったデプロイモードに永続的に関連付けられます。直接または Gemini を介して行われる取得リクエストも、現在のデプロイモードで利用可能なコーパスとファイルに限定されます。2 つのモードを切り替えても、データが移動したり、他のモードのデータが削除されたりすることはありません。

/vertex-ai/images/rag-engine-deployment-modes.png

図に示すように:

  • 統合 API: まったく同じ Vertex AI RAG API を使用して、リソースを作成して管理します。API は、アクティブなデプロイモードに関連付けられているバックエンドにリクエストを自動的にルーティングします。
  • 公開設定: サーバーレス モードが有効になっている場合、アプリケーションは RagCorpus A と B のみを認識して操作できます。Spanner モードで作成された RagCorpus C は安全に保存されますが、プロジェクトのモードを Spanner に戻すまで完全に非表示になり、アプリケーションからアクセスできなくなります。
  • データ損失なし: モードを切り替えてもデータは削除されません。API が参照する「バックエンド」を変更するだけです。

デプロイモードを管理する

デプロイモードはプロジェクト レベルの設定です。現在のモードは、GetRagEngineConfig API と UpdateRagEngineConfig API を使用して表示または変更できます。デプロイ モードの切り替え方法と、Spanner モードに適した階層の選択方法については、モードの切り替えをご覧ください。

データを削除して課金を停止する

データはモード間で分離されているため、リソースのクリーンアップと課金の停止のプロセスは、データの保存場所によって若干異なります。

  • サーバーレス データを削除するには: アクティブ モードがサーバーレスに設定されていることを確認します。ListRagCorpora API を呼び出してリソースを表示し、DeleteRagCorpus API を使用して各コーパスを手動で削除します。
  • Spanner データを削除するには(プロビジョニング解除): アクティブ モードが Spanner に設定されていることを確認します。RagEngineConfig を更新し、Spanner ティアを Unprovisioned に設定します。これにより、専用の Spanner インスタンスと、そのインスタンス内に保持されているすべての RAG データが直ちに削除され、Spanner モードに関連する課金が停止します。注: 未プロビジョニング階層を使用して削除されたデータは復元できません。

Spanner モードとサーバーレス モード

機能 サーバーレス モード Spanner モード
費用
  • リソース管理とオーケストレーションは無料です。
  • ベクトル DB は、ユーザーの選択に応じて直接課金されます。
  • 料金は選択した階層によって異なります。リソース管理とオーケストレーションが含まれます。
  • ベクトル データベースの選択肢として RagManagedDb を使用するすべてのコーパスのベクトル DB の費用が対象となります。
  • 残りのコーパスについては、ユーザーが選択したデータベースに応じてベクトル DB に直接課金されます。
スケーリング フルマネージド自動スケーリング ティアの選択を構成する必要がありますが、自動スケーリング ティアが用意されています。
分離 ストレージが分離されていない ストレージとパフォーマンスの分離を提供します。
CMEK 現時点では CMEK はありません CMEK のサポートを提供している
VPC Security Controls サポート対象 サポート対象
サポートされているベクトル DB
  • Managed Vertex AI Vector Search 2.0(デフォルト)
  • Pinecone
  • Weaviate
  • RagManagedDb(デフォルト)
  • マネージド Vertex AI Vector Search 2.0
  • Vertex AI Vector Search 1.0
  • Pinecone
  • Weaviate

次のステップ