Die Vertex AI RAG Engine bietet verschiedene Bereitstellungsmodi für den Betrieb Ihrer RAG-Instanzen. Die Wahl des Bereitstellungsmodus bestimmt, wo Ihre Daten gespeichert werden, wie sich der Speicher mit zunehmenden Daten skalieren lässt und wie viel Infrastrukturverwaltung von Ihnen erforderlich ist. Wenn Sie wissen, wie diese Modi funktionieren, können Sie für Ihr Projekt das richtige Gleichgewicht zwischen Einfachheit, Skalierbarkeit und Kosten wählen.
Die Vertex AI RAG Engine bietet zwei Bereitstellungsmodi: Serverless und Spanner. Sie können nahtlos zwischen den beiden Modi wechseln. Die Daten in den einzelnen Modi bleiben voneinander isoliert.
Verfügbare Bereitstellungsmodi
In diesem Abschnitt werden die beiden Bereitstellungsmodi für die Vertex AI RAG-Engine beschrieben:
Serverloser Modus
Der serverlose Modus ist die kostengünstigste und empfohlene Methode für den Einstieg in die Vertex AI RAG Engine. Sie bietet eine vollständig verwaltete, unternehmensgerechte Datenbank im globalen Maßstab, bei der die gesamte Datenbankbereitstellung und ‑skalierung abstrahiert wird.
- Am besten geeignet für: Die meisten Nutzer, schnelles Onboarding und nahtlose Skalierung ohne Verwaltung von Infrastrukturkonfigurationen.
- Wichtige Funktionen: Keine Verwaltung von Stufen erforderlich. Sie verwendet automatisch die RAG-verwaltete Vertex AI-Vektorsuche als Standardvektordatenbank, um eine optimierte und sofort einsatzbereite RAG-Lösung zu bieten.
Im serverlosen Modus dient die verwaltete RAG-Datenbank zum Verwalten von RAG-Geschäftsvorgängen und zum Speichern von RAG-Ressourcen. Zu diesen Ressourcen gehören unter anderem RagCorpus, RagFiles, RagMetadata und DataSchema. Sie können jedoch nicht mehr für das Einbetten von Indexierung und Vektorsuche verwendet werden.
Nutzer müssen immer eine andere Vektordatenbank separat auswählen. Im serverlosen Modus stellt die Vertex AI RAG Engine standardmäßig eine Vertex AI Vector Search 2.0-Sammlung in Ihrem Projekt für die Einbettungsindexierung und die Vektorsuche bereit. Im Vergleich zum Spanner-Modus haben Sie durch die Bereitstellung von Vertex AI Vector Search 2.0 in Ihrem Projekt vollständige Transparenz und Kontrolle über die Nutzung und Kosten der Vektordatenbank. Einen detaillierten Vergleich finden Sie im Abschnitt Spanner-Modus im Vergleich zum Serverless-Modus.
Cloud Spanner-Modus
Im Spanner-Modus wird dedizierte Spanner-Infrastruktur zugewiesen, die speziell als Grundlage für die Bereitstellung Ihrer Vertex AI RAG Engine dient. Sie ist für Arbeitslasten konzipiert, die bestimmte Compliance-Funktionen (z. B. CMEK) oder dedizierte, isolierte Datenbankinstanzen erfordern. Der Spanner-Modus wird als Standard zugewiesen, wenn keine Modusauswahl explizit ausgewählt ist.
Wenn Sie den Spanner-Modus verwenden, müssen Sie Ihre Infrastruktur verwalten, indem Sie eine Leistungsstufe auswählen:
- Basic-Stufe (Standard): Eine kostengünstige Stufe mit festen, geringen Rechenressourcen, die sich für Tests, kleine Datenmengen oder latenzunempfindliche Arbeitslasten eignet.
- Skalierte Stufe:Bietet Leistung auf Produktionsniveau mit Autoscaling-Funktion. Es eignet sich für Kunden mit großen Datenmengen oder leistungsempfindlichen Arbeitslasten.
Datenisolation und Umschaltmodi
Mit der Vertex AI RAG Engine können Sie den Bereitstellungsmodus Ihres Projekts ändern, sofern im aktiven Bereitstellungsmodus keine laufenden Vorgänge vorhanden sind. Sie können Daten in beiden Modi haben. Es kann jedoch immer nur ein Modus aktiv sein und die Daten sind zwischen den Bereitstellungsmodi streng isoliert.
Als hilfreiches Tool können Sie sich vorstellen, dass Ihr Projekt zwei völlig separate Back-Ends hat. Die von Ihnen erstellten Ressourcen (Korpora, importierte und hochgeladene Dateien sowie geparste Einbettungen) sind dauerhaft mit dem Bereitstellungsmodus verknüpft, der bei ihrer Erstellung aktiv war. Alle Abrufanfragen, die direkt oder über Gemini gestellt werden, sind ebenfalls auf die Korpora und Dateien beschränkt, die in Ihrem aktuellen Bereitstellungsmodus vorhanden sind. Wenn Sie zwischen den beiden Modi wechseln, werden Ihre Daten nicht übertragen oder aus dem anderen Modus gelöscht.

Wie im Diagramm dargestellt:
- Einheitliche API: Sie verwenden genau dieselben Vertex AI RAG APIs, um Ressourcen zu erstellen und zu verwalten. Die API leitet Ihre Anfragen automatisch an das Backend weiter, das Ihrem aktiven Bereitstellungsmodus zugeordnet ist.
- Sichtbarkeit: Wenn der Serverless-Modus aktiv ist, kann Ihre Anwendung nur RagCorpus A und B sehen und mit ihnen interagieren. RagCorpus C, das im Spanner-Modus erstellt wurde, wird sicher gespeichert, ist aber für Ihre Anwendung vollständig ausgeblendet und nicht zugänglich, bis Sie den Modus Ihres Projekts wieder auf Spanner umstellen.
- Kein Datenverlust: Beim Wechseln des Modus werden Ihre Daten nicht gelöscht. Es wird nur geändert, auf welches Backend die API zugreift.
Bereitstellungsmodus verwalten
Der Bereitstellungsmodus ist eine Einstellung auf Projektebene. Sie können Ihren aktuellen Modus mit den APIs GetRagEngineConfig und UpdateRagEngineConfig aufrufen oder ändern. Auf der Seite Zwischen Modi wechseln finden Sie weitere Informationen zum Wechseln zwischen den Bereitstellungsmodi und zur Auswahl einer geeigneten Stufe für Ihren Spanner-Modus.
Daten löschen und Abrechnung beenden
Da Daten zwischen den Modi isoliert sind, unterscheiden sich die Prozesse zum Bereinigen von Ressourcen und zum Beenden der Abrechnung je nachdem, wo sich Ihre Daten befinden.
- Serverless-Daten löschen:Ihr aktiver Modus muss auf „Serverless“ eingestellt sein. Rufen Sie die
ListRagCorporaAPI auf, um Ihre Ressourcen anzusehen, und löschen Sie dann jedes Corpus manuell mit derDeleteRagCorpusAPI. - Spanner-Daten löschen (Bereitstellung aufheben): Der aktive Modus muss auf Spanner eingestellt sein. Aktualisieren Sie
RagEngineConfigund legen Sie die Spanner-Stufe aufUnprovisionedfest. Dadurch wird Ihre dedizierte Cloud Spanner-Instanz und alle darin enthaltenen RAG-Daten sofort gelöscht. Die zugehörige Abrechnung für den Cloud Spanner-Modus wird beendet. Hinweis: Daten, die mit dem nicht bereitgestellten Tarif gelöscht wurden, können nicht wiederhergestellt werden.
Cloud Spanner-Modus im Vergleich zum serverlosen Modus
| Funktion | Serverloser Modus | Cloud Spanner-Modus |
|---|---|---|
| Kosten |
|
|
| Skalierung | Vollständig verwaltetes Autoscaling | Die Auswahl der Stufe muss konfiguriert werden, bietet aber eine Autoscaling-Stufe. |
| Isolation | Speicher ist nicht isoliert | Bietet Speicher- und Leistungsisolation. |
| CMEK | Derzeit keine CMEK | Bietet CMEK-Unterstützung |
| VPC Security Controls | Unterstützt | Unterstützt |
| Unterstützte Vektordatenbanken |
|
|
Nächste Schritte
- Informationen zum Einstieg in die Vertex AI RAG Engine finden Sie unter RAG-Kurzanleitung.
- Informationen zum Ändern des Bereitstellungsmodus oder zum Aktualisieren der Stufe des Spanner-Modus finden Sie unter Zwischen Modi wechseln.
- Informationen zum Löschen Ihrer Spanner-Instanz finden Sie unter Auf das nicht bereitgestellte Tier umstellen.
- Weitere Informationen zum Spanner-Modus finden Sie unter Spanner-Modus verwalten.
- Weitere Informationen zum serverlosen Modus finden Sie unter Serverloser Modus.
- Informationen zu Preisen finden Sie unter Abrechnung für Vertex AI RAG Engine.