Bereitstellungsmodi in RAG Engine

Die RAG Engine auf der Gemini Enterprise Agent Platform bietet verschiedene Bereitstellungsmodi für den Betrieb Ihrer RAG-Instanzen. Ihre Wahl des Bereitstellungsmodus bestimmt, wo Ihre Daten gespeichert werden, wie dieser Speicher skaliert wird, wenn Ihre Daten zunehmen, und wie viel Infrastrukturverwaltung von Ihnen erforderlich ist. Wenn Sie wissen, wie diese Modi funktionieren, können Sie für Ihr Projekt das richtige Gleichgewicht zwischen Einfachheit, Skalierbarkeit und Kosten finden.

Die RAG Engine bietet zwei Bereitstellungsmodi: serverlos und Cloud Spanner. Sie können nahtlos zwischen den beiden Modi wechseln. Die Daten in jedem Modus bleiben von den Daten im anderen Modus isoliert.

Verfügbare Bereitstellungsmodi

In diesem Abschnitt werden die beiden für die RAG Engine verfügbaren Bereitstellungsmodi beschrieben:

Serverloser Modus

Der serverlose Modus ist die kostengünstigste und empfohlene Möglichkeit, mit der RAG Engine zu beginnen. Er bietet eine vollständig verwaltete, unternehmensfertige Datenbank im planetaren Maßstab, die die gesamte Datenbankbereitstellung und ‑skalierung abstrahiert.

  • Am besten geeignet für: Die meisten Nutzer, schnelles Onboarding und nahtlose Skalierung ohne Verwaltung von Infrastrukturkonfigurationen.
  • Hauptfunktionen: Keine Stufenverwaltung erforderlich. Die RAG-verwaltete Vektorsuche wird automatisch als Standard-Vektordatenbank verwendet, um eine optimierte und sofort einsatzbereite RAG-Erfahrung zu bieten.

Im serverlosen Modus wird die RAG-verwaltete Datenbank zum Verwalten von RAG-Geschäftsabläufen und zum Speichern von RAG-Ressourcen verwendet. Zu diesen Ressourcen gehören unter anderem RagCorpus, RagFiles, RagMetadata und DataSchema. Sie kann jedoch nicht mehr für die Einbettungsindexierung und die Vektorsuche verwendet werden.

Nutzer müssen immer separat eine andere Vektordatenbank auswählen. Im serverlosen Modus stellt die RAG Engine standardmäßig eine Vektorsuche 2.0-Sammlung in Ihrem Projekt für die Einbettungsindexierung und die Vektorsuche bereit. Im Vergleich zum Spanner-Modus bietet die Bereitstellung der Vektorsuche 2.0 in Ihrem Projekt vollständige Transparenz und Kontrolle über die Nutzung und die Kosten der Vektordatenbank. Einen detaillierten Vergleich finden Sie im Abschnitt Cloud Spanner-Modus im Vergleich zum serverlosen Modus.

Cloud Spanner-Modus

Im Cloud Spanner-Modus wird eine dedizierte Cloud Spanner-Infrastruktur speziell als Grundlage für Ihre RAG Engine-Bereitstellung zugewiesen. Er ist für Arbeitslasten konzipiert, die bestimmte Compliance-Funktionen (z. B. CMEK) oder dedizierte, isolierte Datenbankinstanzen erfordern. Der Cloud Spanner-Modus wird als Standard zugewiesen, wenn keine Modusauswahl explizit ausgewählt wird.

Wenn Sie den Cloud Spanner-Modus verwenden, müssen Sie Ihre Infrastruktur verwalten, indem Sie eine Leistungsstufe auswählen:

  • Basis-Stufe (Standard): Eine feste, kostengünstige Stufe mit geringer Rechenleistung, die sich für Tests, kleine Datenmengen oder latenzunempfindliche Arbeitslasten eignet.
  • Skalierte Stufe:Bietet Leistung auf Produktionsniveau mit Autoscaling-Funktionalität. Sie eignet sich für Kunden mit großen Datenmengen oder leistungsempfindlichen Arbeitslasten.

Datenisolation und Wechseln von Modi

Mit der RAG Engine können Sie den Bereitstellungsmodus Ihres Projekts wechseln, solange in Ihrem aktiven Bereitstellungsmodus keine Vorgänge ausgeführt werden. Sie können Daten in beiden Modi haben. Es kann jedoch nur ein Modus gleichzeitig aktiv sein und die Daten sind zwischen den Bereitstellungsmodi streng isoliert.

Als hilfreiches Tool können Sie sich vorstellen, dass Ihr Projekt so funktioniert, als hätte es zwei völlig separate Back-Ends. Die von Ihnen erstellten Ressourcen (Corpora, importierte und hochgeladene Dateien sowie geparste Einbettungen) sind dauerhaft mit dem Bereitstellungsmodus verknüpft, der bei ihrer Erstellung aktiv war. Alle Abrufanfragen, entweder direkt oder über Gemini, sind auch auf die Corpora und Dateien beschränkt, die in Ihrem aktuellen Bereitstellungsmodus vorhanden sind. Wenn Sie zwischen den beiden Modi wechseln, werden Ihre Daten nicht in den anderen Modus verschoben oder aus dem anderen Modus gelöscht.

/vertex-ai/images/rag-engine-deployment-modes.png

Wie im Diagramm dargestellt:

  • Einheitliche API: Sie verwenden genau dieselben RAG-APIs der Agent Platform, um Ressourcen zu erstellen und zu verwalten. Die API leitet Ihre Anfragen automatisch an das Back-End weiter, das mit Ihrem aktiven Bereitstellungsmodus verknüpft ist.
  • Sichtbarkeit: Wenn der serverlose Modus aktiv ist, kann Ihre Anwendung nur RagCorpus A und B sehen und mit ihnen interagieren. RagCorpus C, das im Cloud Spanner-Modus erstellt wurde, bleibt sicher gespeichert, ist aber für Ihre Anwendung vollständig ausgeblendet und nicht zugänglich, bis Sie den Modus Ihres Projekts wieder auf Cloud Spanner umstellen.
  • Kein Datenverlust: Wenn Sie den Modus wechseln, werden Ihre Daten nicht gelöscht. Es ändert sich nur, welches Back-End von der API verwendet wird.

Bereitstellungsmodus verwalten

Der Bereitstellungsmodus ist eine Einstellung auf Projektebene. Sie können Ihren aktuellen Modus mit den APIs GetRagEngineConfig und UpdateRagEngineConfig aufrufen oder ändern. Auf der Seite Zwischen Modi wechseln finden Sie weitere Informationen zum Wechseln zwischen den Bereitstellungsmodi und zum Auswählen einer geeigneten Stufe für Ihren Cloud Spanner-Modus.

Daten löschen und Abrechnung beenden

Da die Daten zwischen den Modi isoliert sind, unterscheiden sich die Prozesse zum Bereinigen von Ressourcen und zum Beenden der Abrechnung je nachdem, wo sich Ihre Daten befinden.

  • Serverlose Daten löschen:Achten Sie darauf, dass der Aktivmodus auf „Serverlos“ gesetzt ist. Rufen Sie die API ListRagCorpora auf, um Ihre Ressourcen aufzurufen, und löschen Sie dann jedes Corpus manuell mit der API DeleteRagCorpus.
  • Cloud Spanner-Daten löschen (Bereitstellung aufheben) : Achten Sie darauf, dass der Aktivmodus auf „Cloud Spanner“ gesetzt ist. Aktualisieren Sie RagEngineConfig und setzen Sie die Cloud Spanner-Stufe auf Unprovisioned. Dadurch wird Ihre dedizierte Cloud Spanner-Instanz und alle darin enthaltenen RAG-Daten sofort gelöscht und die zugehörige Abrechnung für den Cloud Spanner-Modus beendet. Hinweis: Daten, die mit der Stufe „Unprovisioned“ gelöscht wurden, können nicht wiederhergestellt werden.

Cloud Spanner-Modus im Vergleich zum serverlosen Modus

Funktion Serverloser Modus Cloud Spanner-Modus
Kosten
  • Kostenlos für Ressourcenverwaltung und Orchestrierung.
  • Die Vektordatenbank wird direkt gemäß der Auswahl des Nutzers in Rechnung gestellt.
  • Die Preise hängen von der Auswahl der Stufe ab. Umfasst Ressourcenverwaltung und Orchestrierung.
  • Die Kosten für die Vektordatenbank sind für alle Corpora abgedeckt, wenn RagManagedDb als Vektordatenbank ausgewählt wird.
  • Für die übrigen Corpora wird die Vektordatenbank direkt gemäß der Auswahl des Nutzers in Rechnung gestellt.
Skalierung Vollständig verwaltetes Autoscaling Die Auswahl der Stufe muss konfiguriert werden, bietet aber eine Autoscaling-Stufe.
Isolation Speicher ist nicht isoliert Bietet Speicher- und Leistungsisolation.
CMEK Derzeit kein CMEK Bietet CMEK-Unterstützung
VPC Service Controls Unterstützt Unterstützt
Unterstützte Vektordatenbanken
  • Managed Vector Search 2.0 (Standard)
  • Pinecone
  • Weaviate
  • RagManagedDb (Standard)
  • Verwaltete Vektorsuche 2.0
  • Vektorsuche 1.0
  • Pinecone
  • Weaviate

Nächste Schritte