RAG Engine sulla piattaforma Gemini Enterprise Agent Platform offre diverse modalità di deployment per il funzionamento delle istanze RAG. La modalità di deployment scelta determina dove vengono archiviati i dati, come viene scalato lo spazio di archiviazione man mano che i dati aumentano e quale livello di gestione dell'infrastruttura è richiesto. Comprendendo il funzionamento di queste modalità, puoi scegliere il giusto equilibrio tra semplicità, scalabilità e costi per il tuo progetto.
RAG Engine offre due modalità di deployment: serverless e Spanner. Puoi passare da una modalità all'altra senza problemi. I dati all'interno di ogni modalità rimangono isolati dagli altri.
Modalità di deployment disponibili
In questa sezione, esaminiamo le due modalità di deployment disponibili per RAG Engine:
Modalità serverless
La modalità serverless è il modo più conveniente e consigliato per iniziare a utilizzare RAG Engine. Fornisce un database completamente gestito, su scala planetaria e pronto per l'uso aziendale che astrae tutto il provisioning e lo scaling del database.
- Ideale per: la maggior parte degli utenti, onboarding rapido e scalabilità perfetta senza la necessità di gestire le configurazioni dell'infrastruttura.
- Funzionalità chiave: non richiede la gestione dei livelli. Utilizza automaticamente la ricerca vettoriale gestita da RAG come database vettoriale predefinito per fornire un'esperienza RAG semplificata e pronta all'uso.
In modalità serverless, il database gestito RAG serve per gestire le operazioni aziendali RAG e archiviare le risorse RAG. Queste risorse includono (a titolo esemplificativo) RagCorpus, RagFiles, RagMetadata, DataSchema e così via, ma non possono più essere utilizzate per l'incorporamento dell'indicizzazione e della ricerca vettoriale.
Gli utenti dovranno sempre scegliere un database vettoriale diverso separatamente. In modalità serverless, per impostazione predefinita, RAG Engine esegue il provisioning di una raccolta Vector Search 2.0 nel tuo progetto per l'indicizzazione degli embedding e la ricerca vettoriale. Rispetto alla modalità Spanner, il provisioning di Vector Search 2.0 nel tuo progetto ti offre visibilità e controllo completi sull'utilizzo e sui costi del database vettoriale. Per un confronto dettagliato, consulta la sezione Modalità Spanner e modalità serverless.
Modalità Spanner
La modalità Spanner alloca un'infrastruttura Spanner dedicata specificamente per fungere da base per il deployment di RAG Engine. È progettato per i workload che richiedono funzionalità di conformità specifiche (come CMEK) o istanze di database dedicate e isolate. La modalità Spanner viene assegnata come predefinita se non viene selezionata esplicitamente una modalità.
Quando utilizzi la modalità Spanner, devi gestire la tua infrastruttura selezionando un livello di prestazioni:
- Livello Basic (predefinito): un livello di computing fisso, conveniente e basso, adatto a sperimentazioni, dimensioni ridotte dei dati o carichi di lavoro insensibili alla latenza.
- Livello scalabile:offre prestazioni su scala di produzione con funzionalità di scalabilità automatica. È adatta ai clienti con grandi quantità di dati o workload sensibili alle prestazioni.
Modalità di isolamento e cambio dei dati
RAG Engine ti consente di cambiare la modalità di deployment del progetto a condizione che non siano in corso operazioni nella modalità di deployment attiva. Puoi avere dati in entrambe le modalità. Tuttavia, può essere attiva una sola modalità alla volta e i dati sono rigorosamente isolati tra le modalità di deployment.
Come strumento utile, puoi immaginare che il tuo progetto si comporti come se avesse due backend completamente separati. Le risorse che crei (corpora, file importati e caricati e incorporamenti analizzati) sono associate in modo permanente alla modalità di deployment attiva durante la loro creazione. Qualsiasi richiesta di recupero, direttamente o tramite Gemini, sarà limitata anche ai corpora e ai file presenti nella modalità di deployment attuale. Il passaggio da una modalità all'altra non comporta il trasferimento o l'eliminazione dei dati dall'altra modalità.

Come illustrato nel diagramma:
- API unificata: utilizzi le stesse API RAG di Agent Platform per creare e gestire le risorse. L'API indirizza automaticamente le richieste al backend associato alla modalità di deployment attiva.
- Visibilità: se la modalità serverless è attiva, la tua applicazione può visualizzare e interagire solo con RagCorpus A e B. RagCorpus C, creato in modalità Spanner, rimane archiviato in modo sicuro, ma è completamente nascosto e inaccessibile alla tua applicazione finché non ripristini la modalità Spanner per il progetto.
- Nessuna perdita di dati: il cambio di modalità non comporta l'eliminazione dei dati. Viene modificato solo il "backend" a cui fa riferimento l'API.
Gestire la modalità di deployment
La modalità di deployment è un'impostazione a livello di progetto. Puoi visualizzare o modificare la modalità attuale utilizzando le API GetRagEngineConfig e UpdateRagEngineConfig. Consulta la pagina Passaggio da una modalità all'altra per informazioni dettagliate su come passare da una modalità di deployment all'altra e scegliere un livello appropriato per la modalità Spanner.
Elimina i dati e interrompi la fatturazione
Poiché i dati sono isolati tra le modalità, le procedure per la pulizia delle risorse e l'interruzione della fatturazione variano leggermente a seconda della posizione dei dati.
- Per eliminare i dati serverless:assicurati che la modalità attiva sia impostata su Serverless. Chiama l'API
ListRagCorporaper visualizzare le tue risorse, quindi elimina manualmente ogni corpus utilizzando l'APIDeleteRagCorpus. - Per eliminare i dati di Spanner (deprovisioning): assicurati che la modalità attiva sia impostata su Spanner. Aggiorna
RagEngineConfige imposta il livello Spanner suUnprovisioned. Verranno eliminati immediatamente l'istanza Spanner dedicata e tutti i dati RAG contenuti al suo interno, interrompendo qualsiasi fatturazione associata alla modalità Spanner. Nota: i dati eliminati utilizzando il livello Non sottoposto a provisioning non possono essere recuperati.
Modalità Spanner e modalità serverless
| Funzionalità | Modalità serverless | Modalità Spanner |
|---|---|---|
| Costo |
|
|
| Scalabilità | Scalabilità automatica completamente gestita | La scelta del livello deve essere configurata, ma offre un livello di scalabilità automatica. |
| Isolamento | L'archiviazione non è isolata | Fornisce isolamento di archiviazione e prestazioni. |
| CMEK | Nessuna CMEK al momento | Offre il supporto CMEK |
| Controlli di sicurezza VPC | Supportato | Supportato |
| Database vettoriali supportati |
|
|
Passaggi successivi
- Per iniziare a utilizzare RAG Engine, consulta la Guida rapida di RAG.
- Per modificare la modalità di deployment o aggiornare il livello della modalità Spanner, consulta la sezione Passare da una modalità all'altra.
- Per eliminare l'istanza Spanner, consulta Aggiornamento al livello non sottoposto a provisioning.
- Per scoprire di più sulla modalità Spanner, consulta Gestione della modalità Spanner.
- Per scoprire di più sulla modalità serverless, consulta Modalità serverless.
- Per informazioni sui prezzi, consulta la pagina Fatturazione di RAG Engine.