Mode deployment di RAG Engine di Gemini Enterprise Agent Platform

RAG Engine di Platform Agen Gemini Enterprise menyediakan Mode Deployment yang berbeda untuk mengoperasikan instance RAG Anda. Pilihan mode deployment Anda menentukan tempat data Anda disimpan, cara penyimpanan tersebut diskalakan saat data Anda bertambah, dan tingkat pengelolaan infrastruktur yang diperlukan dari Anda. Dengan memahami cara kerja mode ini, Anda dapat memilih keseimbangan yang tepat antara kesederhanaan, skalabilitas, dan biaya untuk project Anda.

RAG Engine menawarkan dua mode deployment: Serverless dan Spanner. Anda dapat beralih di antara kedua mode tersebut dengan lancar. Data dalam setiap mode tetap terisolasi dari mode lainnya.

Mode deployment yang tersedia

Di bagian ini, kita akan membahas dua mode deployment yang tersedia untuk RAG Engine:

Mode serverless

Mode serverless adalah cara yang paling terjangkau dan direkomendasikan untuk mulai menggunakan RAG Engine. Mode ini menyediakan database terkelola sepenuhnya, berskala global, dan siap digunakan perusahaan yang mengabstraksi semua penyediaan dan penskalaan database.

  • Paling cocok untuk: Sebagian besar pengguna, orientasi cepat, dan penskalaan lancar tanpa perlu mengelola konfigurasi infrastruktur.
  • Fitur utama: Tidak memerlukan pengelolaan paket. Mode ini secara otomatis menggunakan Vector Search yang dikelola RAG sebagai database vektor default untuk memberikan pengalaman RAG yang efisien dan siap pakai.

Dalam mode serverless, database yang dikelola RAG digunakan untuk mengelola operasi bisnis RAG dan menyimpan resource RAG. Resource ini mencakup (tetapi tidak terbatas pada) RagCorpus, RagFiles, RagMetadata, DataSchema, dll. Namun, resource ini tidak dapat lagi digunakan untuk pengindeksan embedding dan penelusuran vektor.

Pengguna akan selalu perlu memilih database vektor yang berbeda secara terpisah. Dalam mode Serverless, secara default, RAG Engine menyediakan koleksi Vector Search 2.0 di project Anda untuk pengindeksan embedding dan penelusuran vektor. Dibandingkan dengan mode Spanner, penyediaan Vector Search 2.0 di project Anda memberi Anda visibilitas dan kontrol penuh atas penggunaan dan biaya DB vektor. Lihat bagian Mode Spanner versus Mode Serverless untuk perbandingan mendetail.

Mode Spanner

Mode Spanner mengalokasikan infrastruktur Spanner khusus untuk berfungsi sebagai dasar deployment RAG Engine Anda. Mode ini dirancang untuk workload yang memerlukan fitur kepatuhan tertentu (seperti CMEK) atau instance database khusus yang terisolasi. Mode Spanner ditetapkan sebagai default jika pilihan mode tidak dipilih secara eksplisit.

Saat menggunakan mode Spanner, Anda harus mengelola infrastruktur dengan memilih paket performa:

  • Paket dasar (default): Paket tetap, hemat biaya, dan komputasi rendah yang cocok untuk eksperimen, ukuran data kecil, atau workload yang tidak sensitif terhadap latensi.
  • Paket yang diskalakan: Menawarkan performa skala produksi dengan fungsi penskalaan otomatis. Paket ini cocok untuk pelanggan dengan data dalam jumlah besar atau workload yang sensitif terhadap performa.

Isolasi data dan mode peralihan

RAG Engine memungkinkan Anda beralih mode deployment project selama tidak ada operasi yang sedang berlangsung dalam mode deployment aktif Anda. Anda dapat memiliki data dalam kedua mode tersebut. Namun, hanya satu mode yang dapat aktif dalam satu waktu, dan data diisolasi secara ketat di antara mode deployment.

Sebagai alat yang berguna, Anda dapat membayangkan bahwa project Anda berperilaku seolah-olah memiliki dua backend yang sepenuhnya terpisah. Resource yang Anda buat (korpora, file yang diimpor dan diupload, serta embedding yang diuraikan) terikat secara permanen ke mode deployment yang aktif selama pembuatannya. Setiap permintaan pengambilan data, baik secara langsung maupun melalui Gemini, juga akan dibatasi untuk korpora dan file yang ada dalam mode deployment Anda saat ini. Beralih di antara kedua mode tersebut tidak akan memindahkan data Anda atau menghapus data dari mode lainnya.

/gemini-enterprise-agent-platform/images/rag-engine-deployment-modes.png

Seperti yang diilustrasikan dalam diagram:

  • API terpadu: Anda menggunakan Agent Platform RAG API yang sama persis untuk membuat dan mengelola resource. API secara otomatis merutekan permintaan Anda ke backend yang terkait dengan mode deployment aktif Anda.
  • Visibilitas: Jika mode Serverless aktif, aplikasi Anda hanya dapat melihat dan berinteraksi dengan RagCorpus A dan B. RagCorpus C, yang dibuat dalam mode Spanner, tetap disimpan dengan aman, tetapi sepenuhnya tersembunyi dan tidak dapat diakses oleh aplikasi Anda hingga Anda mengalihkan mode project kembali ke Spanner.
  • Tidak ada kehilangan data: Beralih mode tidak akan menghapus data Anda. Tindakan ini hanya mengubah "backend" yang dilihat API.

Mengelola mode deployment

Mode deployment adalah setelan tingkat project. Anda dapat melihat atau mengubah mode saat ini menggunakan GetRagEngineConfig dan UpdateRagEngineConfig API. Lihat halaman Beralih antar-mode untuk mengetahui detail tentang cara beralih antar-mode deployment dan memilih paket yang sesuai untuk mode Spanner Anda.

Menghapus data dan menghentikan penagihan

Karena data diisolasi antar-mode, proses untuk membersihkan resource dan menghentikan penagihan sedikit berbeda, bergantung pada tempat data Anda berada.

  • Untuk menghapus data Serverless: Pastikan mode aktif Anda ditetapkan ke Serverless. Panggil ListRagCorpora API untuk melihat resource Anda, lalu hapus setiap korpus secara manual menggunakan DeleteRagCorpus API.
  • Untuk menghapus data Spanner (Pembatalan penyediaan): Pastikan mode aktif Anda ditetapkan ke Spanner. Perbarui RagEngineConfig dan tetapkan paket Spanner ke Unprovisioned. Tindakan ini akan segera menghapus instance Spanner khusus Anda dan semua data RAG yang ada di dalamnya, sehingga menghentikan penagihan terkait untuk mode Spanner. Catatan: Data yang dihapus menggunakan paket Unprovisioned tidak dapat dipulihkan.

Mode Spanner versus mode Serverless

Fitur Mode Serverless Mode Spanner
Biaya
  • Gratis untuk pengelolaan dan orkestrasi resource.
  • DB Vektor ditagih langsung sesuai pilihan pengguna.
  • Harga bergantung pada pilihan paket. Mencakup pengelolaan dan orkestrasi resource.
  • Biaya DB Vektor ditanggung untuk semua korpora dengan RagManagedDb sebagai pilihan database vektor.
  • Untuk korpora lainnya, DB vektor ditagih langsung sesuai pilihan database pengguna.
Penskalaan Penskalaan otomatis terkelola sepenuhnya Pilihan paket harus dikonfigurasi, tetapi menawarkan paket penskalaan otomatis.
Isolasi Penyimpanan tidak terisolasi Menyediakan isolasi penyimpanan dan performa.
CMEK Tidak ada CMEK saat ini Menawarkan dukungan CMEK
Kontrol Keamanan VPC Didukung Didukung
DB Vektor yang Didukung
  • Managed Vector Search 2.0 (Default)
  • Pinecone
  • Weaviate
  • RagManagedDb (Default)
  • Managed Vector Search 2.0
  • Vector Search 1.0
  • Pinecone
  • Weaviate

Langkah berikutnya