Vertex AI RAG Engine fornisce diverse modalità di deployment per il funzionamento delle istanze RAG. La scelta della modalità di deployment determina la posizione in cui vengono archiviati i dati, la scalabilità dell'archiviazione man mano che i dati aumentano e il livello di gestione dell'infrastruttura richiesto. Comprendendo il funzionamento di queste modalità, puoi scegliere il giusto equilibrio tra semplicità, scalabilità e costi per il tuo progetto.
Vertex AI RAG Engine offre due modalità di deployment: serverless e Spanner. Puoi passare da una modalità all'altra senza problemi. I dati in ogni modalità rimangono isolati dall'altra.
Modalità di deployment disponibili
In questa sezione, esaminiamo le due modalità di deployment disponibili per Vertex AI RAG Engine:
Modalità serverless
La modalità serverless è il modo più conveniente e consigliato per iniziare a utilizzare Vertex AI RAG Engine. Fornisce un database completamente gestito, su scala planetaria e pronto per l'uso aziendale che astrae tutto il provisioning e la scalabilità del database.
- Ideale per: la maggior parte degli utenti, onboarding rapido e scalabilità senza interruzioni senza la necessità di gestire le configurazioni dell'infrastruttura.
- Funzionalità chiave: non richiede la gestione dei livelli. Utilizza automaticamente Vertex AI Vector Search gestito da RAG come database vettoriale predefinito per fornire un'esperienza RAG semplificata e pronta all'uso.
In modalità serverless, il database gestito da RAG serve per gestire le operazioni aziendali RAG e archiviare le risorse RAG. Queste risorse includono (ma non sono limitate a) RagCorpus, RagFiles, RagMetadata, DataSchema e così via. Tuttavia, non può più essere utilizzato per l'indicizzazione degli incorporamenti e la ricerca vettoriale.
Gli utenti dovranno sempre scegliere un database vettoriale diverso separatamente. In modalità serverless, per impostazione predefinita, Vertex AI RAG Engine esegue il provisioning di una raccolta Vertex AI Vector Search 2.0 nel progetto per l'indicizzazione degli incorporamenti e la ricerca vettoriale. Rispetto alla modalità Spanner, il provisioning di Vertex AI Vector Search 2.0 nel progetto offre visibilità e controllo completi sull'utilizzo e sui costi del database vettoriale. Per un confronto dettagliato, consulta la sezione Modalità Spanner e modalità serverless.
Modalità Spanner
La modalità Spanner alloca un'infrastruttura Spanner dedicata specificamente per fungere da base per il deployment di Vertex AI RAG Engine. È progettata per i workload che richiedono funzionalità di conformità specifiche (come CMEK) o istanze di database dedicate e isolate. La modalità Spanner viene assegnata come predefinita se non viene selezionata esplicitamente una scelta di modalità.
Quando utilizzi la modalità Spanner, devi gestire l'infrastruttura selezionando un livello di prestazioni:
- Livello di base (predefinito): un livello di calcolo fisso, conveniente e basso, adatto per la sperimentazione, le dimensioni ridotte dei dati o i workload insensibili alla latenza.
- Livello scalato: offre prestazioni su scala di produzione con funzionalità di scalabilità automatica. È adatto ai clienti con grandi quantità di dati o workload sensibili alle prestazioni.
Isolamento dei dati e cambio di modalità
Vertex AI RAG Engine consente di cambiare la modalità di deployment del progetto a condizione che non siano in corso operazioni nella modalità di deployment attiva. Puoi avere dati in entrambe le modalità. Tuttavia, può essere attiva una sola modalità alla volta e i dati sono rigorosamente isolati tra le modalità di deployment.
Come strumento utile, puoi immaginare che il tuo progetto si comporti come se avesse due backend completamente separati. Le risorse create (corpora, file importati e caricati e incorporamenti analizzati) sono collegate in modo permanente alla modalità di deployment attiva durante la loro creazione. Anche le richieste di recupero, direttamente o tramite Gemini, saranno limitate ai corpora e ai file presenti nella modalità di deployment corrente. Il passaggio da una modalità all'altra non comporta lo spostamento dei dati o l'eliminazione dei dati dall'altra modalità.

Come illustrato nel diagramma:
- API unificata: utilizzi le stesse API Vertex AI RAG per creare e gestire le risorse. L'API instrada automaticamente le richieste al backend associato alla modalità di deployment attiva.
- Visibilità: se la modalità serverless è attiva, l'applicazione può visualizzare e interagire solo con RagCorpus A e B. RagCorpus C, creato in modalità Spanner, rimane archiviato in modo sicuro, ma è completamente nascosto e inaccessibile alla tua applicazione finché non riporti la modalità del progetto a Spanner.
- Nessuna perdita di dati: il cambio di modalità non comporta l'eliminazione dei dati. Modifica solo il "backend" a cui fa riferimento l'API.
Gestire la modalità di deployment
La modalità di deployment è un'impostazione a livello di progetto. Puoi visualizzare o modificare la modalità corrente utilizzando le API GetRagEngineConfig e UpdateRagEngineConfig. Per informazioni dettagliate su come passare da una modalità di deployment all'altra e scegliere un livello appropriato per la modalità Spanner, consulta la pagina Passare da una modalità all'altra.
Eliminare i dati e interrompere la fatturazione
Poiché i dati sono isolati tra le modalità, le procedure per la pulizia delle risorse e l'interruzione della fatturazione variano leggermente a seconda della posizione dei dati.
- Per eliminare i dati serverless: assicurati che la modalità attiva sia impostata su Serverless. Chiama l'API
ListRagCorporaper visualizzare le risorse, quindi elimina manualmente ogni corpus utilizzando l'APIDeleteRagCorpus. - Per eliminare i dati Spanner (annullamento del provisioning): assicurati che la modalità attiva sia impostata su Spanner. Aggiorna
RagEngineConfige imposta il livello Spanner suUnprovisioned. In questo modo, l'istanza Spanner dedicata e tutti i dati RAG contenuti al suo interno verranno eliminati immediatamente, interrompendo la fatturazione associata alla modalità Spanner. Nota: i dati eliminati utilizzando il livello Unprovisioned non possono essere recuperati.
Modalità Spanner e modalità serverless
| Funzionalità | Modalità serverless | Modalità Spanner |
|---|---|---|
| Costo |
|
|
| Scalabilità | Scalabilità automatica completamente gestita | È necessario configurare la scelta del livello, ma è disponibile un livello di scalabilità automatica. |
| Isolamento | L'archiviazione non è isolata | Fornisce isolamento dell'archiviazione e delle prestazioni. |
| CMEK | Al momento non è disponibile CMEK | Offre il supporto CMEK |
| Controlli di sicurezza VPC | Supportato | Supportato |
| Database vettoriali supportati |
|
|
Passaggi successivi
- Per iniziare a utilizzare Vertex AI RAG Engine, consulta la guida rapida di RAG.
- Per cambiare la modalità di deployment o aggiornare il livello della modalità Spanner, consulta la pagina Passare da una modalità all'altra.
- Per eliminare l'istanza Spanner, consulta la pagina Aggiornare al livello Unprovisioned.
- Per scoprire di più sulla modalità Spanner, consulta la pagina Gestire la modalità Spanner.
- Per scoprire di più sulla modalità serverless, consulta la pagina Modalità serverless.
- Per scoprire di più sui prezzi, consulta la pagina Fatturazione di Vertex AI RAG Engine.