Bereitstellungsmodi in der Vertex AI RAG Engine

Die Vertex AI RAG Engine bietet verschiedene Bereitstellungsmodi für den Betrieb Ihrer RAG-Instanzen. Die Wahl des Bereitstellungsmodus bestimmt, wo Ihre Daten gespeichert werden, wie sich der Speicher mit zunehmenden Daten skalieren lässt und wie viel Infrastrukturverwaltung von Ihnen erforderlich ist. Wenn Sie wissen, wie diese Modi funktionieren, können Sie für Ihr Projekt das richtige Gleichgewicht zwischen Einfachheit, Skalierbarkeit und Kosten wählen.

Die Vertex AI RAG Engine bietet zwei Bereitstellungsmodi: Serverless und Spanner. Sie können nahtlos zwischen den beiden Modi wechseln. Die Daten in den einzelnen Modi bleiben voneinander isoliert.

Verfügbare Bereitstellungsmodi

In diesem Abschnitt werden die beiden Bereitstellungsmodi für die Vertex AI RAG-Engine beschrieben:

Serverloser Modus

Der serverlose Modus ist die kostengünstigste und empfohlene Methode für den Einstieg in die Vertex AI RAG Engine. Sie bietet eine vollständig verwaltete, unternehmensgerechte Datenbank im globalen Maßstab, bei der die gesamte Datenbankbereitstellung und ‑skalierung abstrahiert wird.

  • Am besten geeignet für: Die meisten Nutzer, schnelles Onboarding und nahtlose Skalierung ohne Verwaltung von Infrastrukturkonfigurationen.
  • Wichtige Funktionen: Keine Verwaltung von Stufen erforderlich. Sie verwendet automatisch die RAG-verwaltete Vertex AI-Vektorsuche als Standardvektordatenbank, um eine optimierte und sofort einsatzbereite RAG-Lösung zu bieten.

Im serverlosen Modus dient die verwaltete RAG-Datenbank zum Verwalten von RAG-Geschäftsvorgängen und zum Speichern von RAG-Ressourcen. Zu diesen Ressourcen gehören unter anderem RagCorpus, RagFiles, RagMetadata und DataSchema. Sie können jedoch nicht mehr für das Einbetten von Indexierung und Vektorsuche verwendet werden.

Nutzer müssen immer eine andere Vektordatenbank separat auswählen. Im serverlosen Modus stellt die Vertex AI RAG Engine standardmäßig eine Vertex AI Vector Search 2.0-Sammlung in Ihrem Projekt für die Einbettungsindexierung und die Vektorsuche bereit. Im Vergleich zum Spanner-Modus haben Sie durch die Bereitstellung von Vertex AI Vector Search 2.0 in Ihrem Projekt vollständige Transparenz und Kontrolle über die Nutzung und Kosten der Vektordatenbank. Einen detaillierten Vergleich finden Sie im Abschnitt Spanner-Modus im Vergleich zum Serverless-Modus.

Cloud Spanner-Modus

Im Spanner-Modus wird dedizierte Spanner-Infrastruktur zugewiesen, die speziell als Grundlage für die Bereitstellung Ihrer Vertex AI RAG Engine dient. Sie ist für Arbeitslasten konzipiert, die bestimmte Compliance-Funktionen (z. B. CMEK) oder dedizierte, isolierte Datenbankinstanzen erfordern. Der Spanner-Modus wird als Standard zugewiesen, wenn keine Modusauswahl explizit ausgewählt ist.

Wenn Sie den Spanner-Modus verwenden, müssen Sie Ihre Infrastruktur verwalten, indem Sie eine Leistungsstufe auswählen:

  • Basic-Stufe (Standard): Eine kostengünstige Stufe mit festen, geringen Rechenressourcen, die sich für Tests, kleine Datenmengen oder latenzunempfindliche Arbeitslasten eignet.
  • Skalierte Stufe:Bietet Leistung auf Produktionsniveau mit Autoscaling-Funktion. Es eignet sich für Kunden mit großen Datenmengen oder leistungsempfindlichen Arbeitslasten.

Datenisolation und Umschaltmodi

Mit der Vertex AI RAG Engine können Sie den Bereitstellungsmodus Ihres Projekts ändern, sofern im aktiven Bereitstellungsmodus keine laufenden Vorgänge vorhanden sind. Sie können Daten in beiden Modi haben. Es kann jedoch immer nur ein Modus aktiv sein und die Daten sind zwischen den Bereitstellungsmodi streng isoliert.

Als hilfreiches Tool können Sie sich vorstellen, dass Ihr Projekt zwei völlig separate Back-Ends hat. Die von Ihnen erstellten Ressourcen (Korpora, importierte und hochgeladene Dateien sowie geparste Einbettungen) sind dauerhaft mit dem Bereitstellungsmodus verknüpft, der bei ihrer Erstellung aktiv war. Alle Abrufanfragen, die direkt oder über Gemini gestellt werden, sind ebenfalls auf die Korpora und Dateien beschränkt, die in Ihrem aktuellen Bereitstellungsmodus vorhanden sind. Wenn Sie zwischen den beiden Modi wechseln, werden Ihre Daten nicht übertragen oder aus dem anderen Modus gelöscht.

/vertex-ai/images/rag-engine-deployment-modes.png

Wie im Diagramm dargestellt:

  • Einheitliche API: Sie verwenden genau dieselben Vertex AI RAG APIs, um Ressourcen zu erstellen und zu verwalten. Die API leitet Ihre Anfragen automatisch an das Backend weiter, das Ihrem aktiven Bereitstellungsmodus zugeordnet ist.
  • Sichtbarkeit: Wenn der Serverless-Modus aktiv ist, kann Ihre Anwendung nur RagCorpus A und B sehen und mit ihnen interagieren. RagCorpus C, das im Spanner-Modus erstellt wurde, wird sicher gespeichert, ist aber für Ihre Anwendung vollständig ausgeblendet und nicht zugänglich, bis Sie den Modus Ihres Projekts wieder auf Spanner umstellen.
  • Kein Datenverlust: Beim Wechseln des Modus werden Ihre Daten nicht gelöscht. Es wird nur geändert, auf welches Backend die API zugreift.

Bereitstellungsmodus verwalten

Der Bereitstellungsmodus ist eine Einstellung auf Projektebene. Sie können Ihren aktuellen Modus mit den APIs GetRagEngineConfig und UpdateRagEngineConfig aufrufen oder ändern. Auf der Seite Zwischen Modi wechseln finden Sie weitere Informationen zum Wechseln zwischen den Bereitstellungsmodi und zur Auswahl einer geeigneten Stufe für Ihren Spanner-Modus.

Daten löschen und Abrechnung beenden

Da Daten zwischen den Modi isoliert sind, unterscheiden sich die Prozesse zum Bereinigen von Ressourcen und zum Beenden der Abrechnung je nachdem, wo sich Ihre Daten befinden.

  • Serverless-Daten löschen:Ihr aktiver Modus muss auf „Serverless“ eingestellt sein. Rufen Sie die ListRagCorpora API auf, um Ihre Ressourcen anzusehen, und löschen Sie dann jedes Corpus manuell mit der DeleteRagCorpus API.
  • Spanner-Daten löschen (Bereitstellung aufheben): Der aktive Modus muss auf Spanner eingestellt sein. Aktualisieren Sie RagEngineConfig und legen Sie die Spanner-Stufe auf Unprovisioned fest. Dadurch wird Ihre dedizierte Cloud Spanner-Instanz und alle darin enthaltenen RAG-Daten sofort gelöscht. Die zugehörige Abrechnung für den Cloud Spanner-Modus wird beendet. Hinweis: Daten, die mit dem nicht bereitgestellten Tarif gelöscht wurden, können nicht wiederhergestellt werden.

Cloud Spanner-Modus im Vergleich zum serverlosen Modus

Funktion Serverloser Modus Cloud Spanner-Modus
Kosten
  • Kostenlos für Ressourcenverwaltung und Orchestrierung.
  • Die Abrechnung für die Vektordatenbank erfolgt direkt entsprechend der Auswahl des Nutzers.
  • Die Preise hängen von der gewählten Stufe ab. Umfasst Ressourcenverwaltung und ‑orchestrierung.
  • Die Kosten für die Vektordatenbank werden für alle Corpora mit RagManagedDb als Vektordatenbank übernommen.
  • Für die restlichen Korpora wird die Vektordatenbank direkt entsprechend der vom Nutzer ausgewählten Datenbank abgerechnet.
Skalierung Vollständig verwaltetes Autoscaling Die Auswahl der Stufe muss konfiguriert werden, bietet aber eine Autoscaling-Stufe.
Isolation Speicher ist nicht isoliert Bietet Speicher- und Leistungsisolation.
CMEK Derzeit keine CMEK Bietet CMEK-Unterstützung
VPC Security Controls Unterstützt Unterstützt
Unterstützte Vektordatenbanken
  • Managed Vertex AI Vector Search 2.0 (Standard)
  • Pinecone
  • Weaviate
  • RagManagedDb (Standard)
  • Verwaltete Vektorsuche 2.0 in Vertex AI
  • Vertex AI Vektorsuche 1.0
  • Pinecone
  • Weaviate

Nächste Schritte