Ce guide vous aide à comprendre le modèle RAG d'IA générative avec Cloud SQL, qui est un modèle fourni par Google pour une application de chat. Ce modèle montre comment créer une application de chat qui utilise la génération augmentée par récupération (RAG). Lorsque les utilisateurs posent des questions dans l'application, celle-ci fournit des réponses basées sur les informations stockées sous forme de vecteurs dans une base de données.
Produits utilisés
L'application contient les produits suivants : Google Cloud
- Cloud Load Balancing (facultatif) : service qui fournit un équilibrage de charge hautes performances et évolutif sur Google Cloud.
- Vertex AI : plate-forme de machine learning (ML) qui vous permet d'entraîner et de déployer des modèles de ML et des applications d'IA, et de personnaliser les LLM pour les utiliser dans des applications.
- Cloud SQL : un service cloud pour les bases de données MySQL, PostgreSQL et SQL Server, entièrement géré sur l'infrastructureGoogle Cloud .
- Cloud Run : service entièrement géré qui vous permet de créer et de déployer des applications conteneurisées sans serveur.Google Cloud gère le scaling et d'autres tâches d'infrastructure.
- Secret Manager : système de stockage sécurisé et pratique pour les clés API, les mots de passe, les certificats et autres données sensibles.
Architecture
L'image suivante montre les composants et les connexions dans l'application :
Voici le flux de traitement des requêtes de l'application :
- Vous chargez des données dans une base de données PostgreSQL dans Cloud SQL.
- Vertex AI crée des embeddings de champs de texte et les stocke sous forme de vecteurs.
- Un frontend Cloud Load Balancing reçoit les requêtes externes et distribue le trafic au backend Cloud Load Balancing.
- Le backend Cloud Load Balancing répartit le trafic vers le service de frontend Cloud Run.
- Le service de frontend communique avec le service de récupération pour passer un appel d'IA générative.
- Le service de backend convertit la requête en embedding et recherche des embeddings existants.
- Le service de récupération envoie les résultats en langage naturel issus de la recherche des embeddings et de la requête d'origine à Vertex AI pour générer une réponse.
Étapes suivantes
- Découvrez comment trouver et utiliser d'autres modèles fournis par Google.
- Découvrez comment personnaliser les modèles pour les adapter à vos besoins spécifiques.
- Identifier les bonnes pratiques générales en matière d'architecture dans le Google Cloud Architecture Framework.