RAG Engine auf der Gemini Enterprise Agent Platform bietet verschiedene Bereitstellungsmodi für den Betrieb Ihrer RAG-Instanzen. Die Wahl des Bereitstellungsmodus bestimmt, wo Ihre Daten gespeichert werden, wie der Speicher skaliert wird, wenn Ihre Daten wachsen, und wie viel Infrastrukturverwaltung von Ihnen erforderlich ist. Wenn Sie wissen, wie diese Modi funktionieren, können Sie für Ihr Projekt die richtige Balance zwischen Einfachheit, Skalierbarkeit und Kosten wählen.
RAG Engine bietet zwei Bereitstellungsmodi: serverlos und Spanner. Sie können nahtlos zwischen den beiden Modi wechseln. Die Daten in den einzelnen Modi bleiben voneinander isoliert.
Verfügbare Bereitstellungsmodi
In diesem Abschnitt werden die beiden Bereitstellungsmodi für RAG Engine beschrieben:
Serverloser Modus
Der serverlose Modus ist die kostengünstigste und empfohlene Methode für den Einstieg in RAG Engine. Sie bietet eine vollständig verwaltete, unternehmensgerechte Datenbank im globalen Maßstab, die die gesamte Datenbankbereitstellung und ‑skalierung abstrahiert.
- Am besten geeignet für: Die meisten Nutzer, schnelles Onboarding und nahtlose Skalierung ohne Verwaltung von Infrastrukturkonfigurationen.
- Wichtige Funktionen: Keine Verwaltung von Stufen erforderlich. Dabei wird automatisch die RAG-verwaltete Vektorsuche als Standardvektordatenbank verwendet, um eine optimierte und sofort einsatzbereite RAG-Lösung zu bieten.
Im serverlosen Modus dient die verwaltete RAG-Datenbank zur Verwaltung von RAG-Geschäftsvorgängen und zum Speichern von RAG-Ressourcen. Zu diesen Ressourcen gehören unter anderem RagCorpus, RagFiles, RagMetadata und DataSchema. Sie kann jedoch nicht mehr für die Einbettungsindexierung und die Vektorsuche verwendet werden.
Nutzer müssen immer eine andere Vektordatenbank separat auswählen. Im serverlosen Modus stellt die RAG Engine standardmäßig eine Vector Search 2.0-Sammlung in Ihrem Projekt für die Indexierung von Einbettungen und die Vektorsuche bereit. Im Vergleich zum Spanner-Modus haben Sie durch die Bereitstellung von Vector Search 2.0 in Ihrem Projekt vollständige Transparenz und Kontrolle über die Nutzung und die Kosten der Vektordatenbank. Einen detaillierten Vergleich finden Sie im Abschnitt Spanner-Modus im Vergleich zum serverlosen Modus.
Cloud Spanner-Modus
Im Spanner-Modus wird dedizierte Spanner-Infrastruktur speziell als Grundlage für die Bereitstellung Ihrer RAG Engine zugewiesen. Er ist für Arbeitslasten konzipiert, die bestimmte Compliance-Funktionen (z. B. CMEK) oder dedizierte, isolierte Datenbankinstanzen erfordern. Der Spanner-Modus wird als Standard zugewiesen, wenn keine Modusauswahl explizit ausgewählt wird.
Wenn Sie den Spanner-Modus verwenden, müssen Sie Ihre Infrastruktur verwalten, indem Sie eine Leistungsstufe auswählen:
- Basic-Stufe (Standard): Eine kostengünstige Stufe mit festen, geringen Rechenressourcen, die sich für Tests, kleine Datenmengen oder latenzunempfindliche Arbeitslasten eignet.
- Skalierte Stufe:Bietet Leistung auf Produktionsniveau mit Autoscaling-Funktionalität. Sie eignet sich für Kunden mit großen Datenmengen oder leistungsempfindlichen Arbeitslasten.
Datenisolation und Umschalten von Modi
Mit der RAG-Engine können Sie den Bereitstellungsmodus Ihres Projekts ändern, sofern im aktiven Bereitstellungsmodus keine laufenden Vorgänge vorhanden sind. Sie können Daten in beiden Modi haben. Es kann jedoch immer nur ein Modus aktiv sein und die Daten sind zwischen den Bereitstellungsmodi streng isoliert.
Stellen Sie sich vor, Ihr Projekt hat zwei völlig separate Back-Ends. Die Ressourcen, die Sie erstellen (Korpora, importierte und hochgeladene Dateien sowie geparste Einbettungen), sind dauerhaft an den Bereitstellungsmodus gebunden, der bei ihrer Erstellung aktiv war. Alle Abrufanfragen, die direkt oder über Gemini gestellt werden, sind ebenfalls auf die Korpora und Dateien beschränkt, die in Ihrem aktuellen Bereitstellungsmodus vorhanden sind. Wenn Sie zwischen den beiden Modi wechseln, werden Ihre Daten nicht in den anderen Modus verschoben oder aus dem anderen Modus gelöscht.

Wie im Diagramm dargestellt:
- Einheitliche API: Sie verwenden genau dieselben Agent Platform RAG APIs, um Ressourcen zu erstellen und zu verwalten. Die API leitet Ihre Anfragen automatisch an das Backend weiter, das mit Ihrem aktiven Bereitstellungsmodus verknüpft ist.
- Sichtbarkeit: Wenn der Serverless-Modus aktiv ist, kann Ihre Anwendung nur RagCorpus A und B sehen und mit ihnen interagieren. RagCorpus C, das im Spanner-Modus erstellt wurde, wird sicher gespeichert, ist aber für Ihre Anwendung vollständig ausgeblendet und nicht zugänglich, bis Sie den Modus Ihres Projekts wieder auf „Spanner“ umstellen.
- Kein Datenverlust: Beim Wechseln des Modus werden Ihre Daten nicht gelöscht. Es wird nur geändert, auf welches Backend die API zugreift.
Bereitstellungsmodus verwalten
Der Bereitstellungsmodus ist eine Einstellung auf Projektebene. Sie können Ihren aktuellen Modus mit den APIs GetRagEngineConfig und UpdateRagEngineConfig aufrufen oder ändern. Weitere Informationen zum Wechseln zwischen den Bereitstellungsmodi und zum Auswählen einer geeigneten Stufe für Ihren Spanner-Modus finden Sie auf der Seite Zwischen Modi wechseln.
Daten löschen und Abrechnung beenden
Da Daten zwischen den Modi isoliert sind, unterscheiden sich die Prozesse zum Bereinigen von Ressourcen und zum Beenden der Abrechnung je nachdem, wo sich Ihre Daten befinden.
- Serverlose Daten löschen:Achten Sie darauf, dass Ihr aktiver Modus auf „Serverlos“ eingestellt ist. Rufen Sie die
ListRagCorporaAPI auf, um Ihre Ressourcen aufzurufen, und löschen Sie dann jedes Corpus manuell mit derDeleteRagCorpusAPI. - Spanner-Daten löschen (Bereitstellung aufheben): Stellen Sie sicher, dass Ihr aktiver Modus auf Spanner eingestellt ist. Aktualisieren Sie
RagEngineConfigund legen Sie die Spanner-Stufe aufUnprovisionedfest. Dadurch wird Ihre dedizierte Spanner-Instanz und alle darin enthaltenen RAG-Daten sofort gelöscht und die zugehörige Abrechnung für den Spanner-Modus wird beendet. Hinweis: Daten, die mit der Stufe „Nicht bereitgestellt“ gelöscht wurden, können nicht wiederhergestellt werden.
Cloud Spanner-Modus im Vergleich zum serverlosen Modus
| Funktion | Serverloser Modus | Cloud Spanner-Modus |
|---|---|---|
| Kosten |
|
|
| Skalierung | Vollständig verwaltetes Autoscaling | Die Auswahl der Stufe muss konfiguriert werden, es ist aber eine Autoscaling-Stufe verfügbar. |
| Isolation | Speicher ist nicht isoliert | Bietet Speicher- und Leistungsisolation. |
| CMEK | Derzeit keine CMEK | Bietet CMEK-Unterstützung |
| VPC Security Controls | Unterstützt | Unterstützt |
| Unterstützte Vektordatenbanken |
|
|
Nächste Schritte
- Eine Einführung in die RAG Engine finden Sie unter RAG-Kurzanleitung.
- Informationen zum Ändern des Bereitstellungsmodus oder zum Aktualisieren der Stufe des Spanner-Modus finden Sie unter Zwischen Modi wechseln.
- Informationen zum Löschen Ihrer Spanner-Instanz finden Sie unter Auf das nicht bereitgestellte Tier umstellen.
- Weitere Informationen zum Spanner-Modus finden Sie unter Spanner-Modus verwalten.
- Weitere Informationen zum serverlosen Modus finden Sie unter Serverloser Modus.
- Weitere Informationen zu den Preisen finden Sie unter Abrechnung für die RAG Engine auf der Gemini Enterprise Agent Platform.