Mode deployment di Vertex AI RAG Engine

Mesin RAG Vertex AI menyediakan berbagai Mode Deployment untuk mengoperasikan instance RAG Anda. Pilihan mode deployment Anda menentukan tempat penyimpanan data, cara penskalaan penyimpanan saat data Anda bertambah, dan tingkat pengelolaan infrastruktur yang diperlukan dari Anda. Dengan memahami cara kerja mode ini, Anda dapat memilih keseimbangan yang tepat antara kesederhanaan, skalabilitas, dan biaya untuk proyek Anda.

Mesin RAG Vertex AI menawarkan dua mode deployment: Serverless dan Spanner. Anda dapat beralih di antara kedua mode dengan lancar. Data dalam setiap mode tetap terisolasi dari mode lainnya.

Mode deployment yang tersedia

Di bagian ini, kita akan membahas dua mode deployment yang tersedia untuk Vertex AI RAG Engine:

Mode serverless

Mode serverless adalah cara paling terjangkau dan direkomendasikan untuk mulai menggunakan Vertex AI RAG Engine. Layanan ini menyediakan database tingkat perusahaan yang terkelola sepenuhnya, berskala planet, dan siap digunakan yang menghilangkan semua penyediaan dan penskalaan database.

  • Terbaik untuk: Sebagian besar pengguna, aktivasi cepat, dan penskalaan lancar tanpa perlu mengelola konfigurasi infrastruktur.
  • Fitur utama: Tidak memerlukan pengelolaan tingkat. Secara otomatis, fitur ini menggunakan Vertex AI Vector Search yang dikelola RAG sebagai database vektor default untuk memberikan pengalaman RAG yang lancar dan siap pakai.

Dalam mode serverless, database terkelola RAG digunakan untuk mengelola operasi bisnis RAG dan menyimpan resource RAG. Resource ini mencakup (tetapi tidak terbatas pada) RagCorpus, RagFiles, RagMetadata, DataSchema, dll. Namun, resource ini tidak dapat lagi digunakan untuk menyematkan pengindeksan dan penelusuran vektor.

Pengguna harus selalu memilih database vektor yang berbeda secara terpisah. Dalam mode Serverless, secara default, Vertex AI RAG Engine menyediakan koleksi Vertex AI Vector Search 2.0 di project Anda untuk pengindeksan embedding dan penelusuran vektor. Dibandingkan dengan mode Spanner, penyediaan Vertex AI Vector Search 2.0 di project Anda memberi Anda visibilitas dan kontrol penuh atas penggunaan dan biaya DB vektor. Lihat bagian Mode Spanner versus Mode Serverless untuk perbandingan mendetail.

Mode Spanner

Mode Spanner mengalokasikan infrastruktur Spanner khusus untuk berfungsi sebagai fondasi deployment Mesin RAG Vertex AI Anda. Layanan ini dirancang untuk workload yang memerlukan fitur kepatuhan khusus (seperti CMEK) atau instance database khusus yang terisolasi. Mode Spanner ditetapkan sebagai default jika pilihan mode tidak dipilih secara eksplisit.

Saat menggunakan mode Spanner, Anda harus mengelola infrastruktur dengan memilih tingkat performa:

  • Tingkat dasar (default): Tingkat tetap, hemat biaya, dan komputasi rendah yang cocok untuk eksperimen, ukuran data kecil, atau beban kerja yang tidak sensitif terhadap latensi.
  • Tingkat yang diskalakan: Menawarkan performa skala produksi dengan fungsi penskalaan otomatis. Layanan ini cocok untuk pelanggan dengan data dalam jumlah besar atau workload yang sensitif terhadap performa.

Isolasi data dan mode peralihan

Vertex AI RAG Engine memungkinkan Anda mengganti mode deployment project selama tidak ada operasi yang sedang berlangsung dalam mode deployment aktif Anda. Anda dapat memiliki data dalam kedua mode. Namun, hanya satu mode yang dapat aktif dalam satu waktu, dan data diisolasi secara ketat di antara mode deployment.

Sebagai alat yang berguna, Anda dapat membayangkan bahwa project Anda berperilaku seolah-olah memiliki dua backend yang sepenuhnya terpisah. Resource yang Anda buat (korpora, file yang diimpor dan diupload, serta sematan yang diuraikan) terikat secara permanen ke mode deployment yang aktif selama pembuatannya. Setiap permintaan pengambilan, baik secara langsung maupun melalui Gemini, juga akan dibatasi pada korpora dan file yang ada dalam mode deployment Anda saat ini. Beralih di antara kedua mode tidak akan memindahkan data Anda atau menghapus data dari mode lainnya.

/vertex-ai/images/rag-engine-deployment-modes.png

Seperti yang diilustrasikan dalam diagram:

  • Unified API: Anda menggunakan Vertex AI RAG API yang sama persis untuk membuat dan mengelola resource. API secara otomatis merutekan permintaan Anda ke backend yang terkait dengan mode deployment aktif Anda.
  • Visibilitas: Jika mode Serverless aktif, aplikasi Anda hanya dapat melihat dan berinteraksi dengan RagCorpus A dan B. RagCorpus C, yang dibuat dalam mode Spanner, tetap disimpan dengan aman, tetapi sepenuhnya tersembunyi dan tidak dapat diakses oleh aplikasi Anda hingga Anda mengalihkan mode project kembali ke Spanner.
  • Tidak ada kehilangan data: Mengganti mode tidak akan menghapus data Anda. Tindakan ini hanya mengubah "backend" yang dilihat API.

Mengelola mode deployment

Mode deployment adalah setelan tingkat project. Anda dapat melihat atau mengubah mode saat ini menggunakan API GetRagEngineConfig dan UpdateRagEngineConfig. Lihat halaman Beralih antar-mode untuk mengetahui detail tentang cara beralih antar-mode deployment dan memilih tingkat yang sesuai untuk mode Spanner Anda.

Menghapus data dan menghentikan penagihan

Karena data diisolasi di antara mode, proses untuk membersihkan resource dan menghentikan penagihan sedikit berbeda, bergantung pada lokasi data Anda.

  • Untuk menghapus data Serverless: Pastikan mode aktif Anda disetel ke Serverless. Panggil API ListRagCorpora untuk melihat resource Anda, lalu hapus setiap korpus secara manual menggunakan API DeleteRagCorpus.
  • Untuk menghapus data Spanner (Penghentian penyediaan): Pastikan mode aktif Anda disetel ke Spanner. Perbarui RagEngineConfig Anda dan tetapkan tingkat Spanner ke Unprovisioned. Tindakan ini akan segera menghapus instance Spanner khusus Anda dan semua data RAG yang ada di dalamnya, serta menghentikan semua penagihan terkait untuk mode Spanner. Catatan: Data yang dihapus menggunakan tingkat yang Tidak Disediakan tidak dapat dipulihkan.

Mode Spanner versus mode Serverless

Fitur Mode Serverless Mode Spanner
Biaya
  • Gratis untuk pengelolaan dan orkestrasi resource.
  • Vector DB ditagih langsung sesuai pilihan pengguna.
  • Harga bergantung pada pilihan tingkat. Mencakup pengelolaan dan orkestrasi resource.
  • Biaya DB Vektor ditanggung untuk semua korpus dengan RagManagedDb sebagai pilihan database vektor.
  • Untuk korpus lainnya, DB vektor ditagih langsung sesuai pilihan database pengguna.
Penskalaan Penskalaan otomatis yang terkelola sepenuhnya Pilihan tingkat perlu dikonfigurasi, tetapi menawarkan tingkat penskalaan otomatis.
Isolasi Penyimpanan tidak diisolasi Menyediakan isolasi penyimpanan dan performa.
CMEK Saat ini tidak ada CMEK Menawarkan dukungan CMEK
Kontrol Keamanan VPC Didukung Didukung
DB Vektor yang Didukung
  • Managed Vertex AI Vector Search 2.0 (Default)
  • Pinecone
  • Weaviate
  • RagManagedDb (Default)
  • Managed Vertex AI Vector Search 2.0
  • Vertex AI Vector Search 1.0
  • Pinecone
  • Weaviate

Langkah berikutnya