Vertex AI RAG 引擎的部署模式

Vertex AI RAG 引擎提供不同的部署模式,可供您運作 RAG 執行個體。您選擇的部署模式會決定資料的儲存位置、儲存空間如何隨著資料量增加而擴充,以及您需要負責的基礎架構管理層級。瞭解這些模式的運作方式後,您就能為專案選擇適當的平衡點,兼顧簡便性、可擴充性和成本。

Vertex AI RAG 引擎提供兩種部署模式:無伺服器和 Spanner。您可以在兩種模式之間流暢切換。各模式的資料彼此獨立。

可用的部署模式

本節將探討 Vertex AI RAG 引擎提供的兩種部署模式:

無伺服器模式

無伺服器模式是開始使用 Vertex AI RAG 引擎最經濟實惠且建議採用的方式。這項全代管式企業級資料庫服務規模遍及全球,可抽象化所有資料庫佈建和擴充作業。

  • 最適合:大多數使用者,可快速上手,並順暢擴充,不必管理基礎架構設定。
  • 主要功能:不需要管理層級。系統會自動使用 RAG 代管型 Vertex AI Vector Search 做為預設向量資料庫,提供簡化的立即可用 RAG 體驗。

在無伺服器模式中,RAG 代管資料庫用於管理 RAG 業務作業及儲存 RAG 資源。這些資源包括 (但不限於) RagCorpusRagFilesRagMetadataDataSchema 等。不過,這項功能無法再用於嵌入索引和向量搜尋。

使用者一律需要另外選擇其他向量資料庫。在無伺服器模式下,Vertex AI RAG 引擎預設會在專案中佈建 Vertex AI Vector Search 2.0 集合,用於嵌入索引和向量搜尋。與 Spanner 模式相比,在專案中佈建 Vertex AI Vector Search 2.0 可讓您全面掌握及控管向量資料庫的使用情形和費用。如需詳細比較資訊,請參閱「Spanner 模式與無伺服器模式」一節。

Spanner 模式

Spanner 模式會分配專屬的 Spanner 基礎架構,專門做為 Vertex AI RAG 引擎部署作業的基礎。適用於需要特定法規遵循功能 (例如 CMEK) 或專用隔離資料庫執行個體的工作負載。如果未明確選取模式,系統會預設指派 Spanner 模式。

使用 Spanner 模式時,您必須選取效能層級來管理基礎架構:

  • 基本層級 (預設):固定且符合成本效益的低運算層級,適合用於實驗、小型資料或對延遲不敏感的工作負載。
  • 擴充層級:提供正式環境規模的效能,並具備自動調度資源功能。適合用於大量資料或易受效能影響的工作負載。

資料隔離和切換模式

只要有效部署模式中沒有進行中的作業,Vertex AI RAG 引擎就能切換專案的部署模式。兩種模式下都可以有資料。不過,一次只能啟用一種模式,且部署模式之間會嚴格隔離資料。

您可以將專案想像成有兩個完全獨立的後端,這項工具會很有幫助。您建立的資源 (語料庫、匯入及上傳的檔案,以及剖析的嵌入內容) 會永久連結至建立時啟用的部署模式。無論是直接或透過 Gemini 提出檢索要求,都只能檢索目前部署模式下的語料庫和檔案。切換模式時,系統不會將資料移至其他模式,也不會刪除其他模式的資料。

/vertex-ai/images/rag-engine-deployment-modes.png

如圖所示:

  • 統一 API:您可以使用完全相同的 Vertex AI RAG API 建立及管理資源。API 會自動將要求轉送至與有效部署模式相關聯的後端。
  • 瀏覽權限:如果無伺服器模式處於啟用狀態,應用程式只能查看 RagCorpus A 和 B,並與其互動。以 Spanner 模式建立的 RagCorpus C 會安全儲存,但完全隱藏,且應用程式無法存取,直到您將專案模式切換回 Spanner 為止。
  • 不會導致資料遺失:切換模式不會刪除資料。這項變更只會影響 API 查詢的「後端」。

管理部署模式

部署模式是專案層級的設定。您可以使用 GetRagEngineConfigUpdateRagEngineConfig API 查看或變更目前的模式。如要瞭解如何切換部署模式,以及為 Spanner 模式選擇適當的層級,請參閱「切換模式」頁面。

刪除資料並停止計費

由於資料在不同模式之間是隔離的,因此清理資源和停止計費的程序會因資料所在位置而略有不同。

  • 如何刪除無伺服器資料:請確認您已將正常模式設為無伺服器。呼叫 ListRagCorpora API 查看資源,然後使用 DeleteRagCorpus API 手動刪除每個語料庫。
  • 如要刪除 Spanner 資料 (取消佈建):請確認有效模式設為 Spanner。更新 RagEngineConfig,並將 Spanner 層級設為 Unprovisioned。這項操作會立即刪除專屬的 Spanner 執行個體和其中所有 RAG 資料,並停止收取 Spanner 模式的相關費用。注意:使用未佈建層級刪除的資料無法復原。

Spanner 模式與無伺服器模式

功能 無伺服器模式 Spanner 模式
費用
  • 資源管理和自動化調度管理功能免費。
  • 系統會根據使用者選擇直接收取 Vector DB 費用。
  • 價格取決於所選方案級別。包括資源管理和自動化調度管理。
  • 如果選擇 RagManagedDb 做為向量資料庫,所有語料庫的向量資料庫費用都會納入計算。
  • 其餘的語料庫則會根據使用者選擇的資料庫,直接向向量資料庫收費。
資源調度 全代管自動調度資源 必須設定層級,但提供自動調度資源層級。
隔離 儲存空間未隔離 提供儲存空間和效能隔離。
CMEK 目前沒有 CMEK 提供 CMEK 支援
VPC Security Controls 支援 支援
支援的向量資料庫
  • Managed Vertex AI Vector Search 2.0 (預設)
  • Pinecone
  • Weaviate
  • RagManagedDb (預設)
  • 全代管的 Vertex AI Vector Search 2.0
  • Vertex AI Vector Search 1.0
  • Pinecone
  • Weaviate

後續步驟