RAG basierend auf generativer KI mit Cloud SQL

Dieser Leitfaden hilft Ihnen, die Vorlage Generative AI RAG mit Cloud SQL zu verstehen. Diese Vorlage ist eine von Google bereitgestellte Vorlage für eine Chat-App. Sie zeigt, wie Sie eine Chat-Anwendung erstellen können, die Retrieval-Augmented Generation (RAG) verwendet. Wenn Nutzer in der App Fragen stellen, werden Antworten auf Grundlage der Informationen bereitgestellt, die als Vektoren in einer Datenbank gespeichert sind.

Verwendete Produkte

Die Anwendung enthält die folgenden Google Cloud Produkte:

  • Cloud Load Balancing (optional): Ein Dienst, der ein leistungsstarkes, skalierbares Load-Balancing auf Google Cloudbietet.
  • Vertex AI: Eine Plattform für maschinelles Lernen (ML), mit der Sie ML-Modelle und KI-Anwendungen trainieren und bereitstellen und LLMs für die Verwendung in Anwendungen anpassen können.
  • Cloud SQL: Ein cloudbasierter Dienst für MySQL-, PostgreSQL- und SQL Server-Datenbanken, der vollständig in derGoogle Cloud -Infrastruktur verwaltet wird.
  • Cloud Run: Ein vollständig verwalteter Dienst, mit dem Sie serverlose containerisierte Anwendungen erstellen und bereitstellen können. Google Cloud übernimmt die Skalierung und andere Infrastrukturaufgaben.
  • Secret Manager: Bietet eine sichere und bequeme Möglichkeit, API-Schlüssel, Passwörter, Zertifikate und andere sensible Daten zu speichern.

Architektur

Das folgende Bild zeigt die Komponenten und Verbindungen in der Anwendung:

Eine RAG-Anwendung für generative KI im Design-Canvas. Die Anwendung umfasst Frontend-, Abruf-, KI-, Secret-Verwaltungs- und Datenbankkomponenten.

Im Folgenden wird der Ablauf der Anfrageverarbeitung der Anwendung beschrieben:

  1. Sie laden Daten in eine PostgreSQL-Datenbank in Cloud SQL.
  2. Vertex AI erstellt Einbettungen von Textfeldern und speichert sie als Vektoren.
  3. Ein Cloud Load Balancing-Frontend empfängt externe Anfragen und verteilt den Traffic an das Cloud Load Balancing-Backend.
  4. Das Cloud Load Balancing-Backend verteilt Traffic an den Cloud Run-Frontend-Dienst.
  5. Der Frontend-Dienst kommuniziert mit dem Abrufdienst zwecks eines Aufrufs basierend auf generativer KI.
  6. Der Back-End-Dienst konvertiert die Anfrage in eine Einbettung und durchsucht vorhandene Einbettungen.
  7. Der Abrufdienst sendet Ergebnisse in natürlicher Sprache aus der Einbettungssuche zusammen mit dem Original-Prompt an Vertex AI, um eine Antwort zu erstellen.

Nächste Schritte