Ce document fournit une architecture de haut niveau pour une application qui utilise l'IA afin de générer des solutions aux questions d'assistance des clients.
Ce document s'adresse aux architectes, aux développeurs et aux administrateurs qui créent et gèrent des applications d'IA générative dans le cloud. Il part du principe que vous disposez de connaissances de base sur l'IA générative.
Architecture
Le schéma suivant illustre une architecture pour une application de centre d'assistance assistée par l'IA dans Google Cloud. L'application reçoit les questions des clients, récupère les ressources pertinentes d'une base de connaissances, puis génère des solutions aux questions. L'architecture est une implémentation de l' approche de génération augmentée par récupération (RAG).
L'application de cette architecture se compose de services conteneurisés déployés dans un cluster Google Kubernetes Engine (GKE). L'architecture présente le flux suivant :
- Un client envoie une question à l'application du centre d'assistance.
- L'application du centre d'assistance transmet la question du client au service de récupération des connaissances.
- Le service de récupération des connaissances crée et envoie un prompt à l'API Gemini dans Vertex AI pour récupérer les ressources pertinentes pour la question du client.
- Gemini identifie les ressources pertinentes à partir d'une base de connaissances d'assistance stockée dans Cloud Storage.
- Gemini renvoie les ID des ressources pertinentes au service de récupération des connaissances.
- Le service de récupération des connaissances récupère les ressources pertinentes à partir de Cloud Storage.
- Le service de récupération des connaissances envoie la question du client et les ressources pertinentes au service de génération de solutions.
- Le service de génération de solutions envoie les ressources à l'API Gemini dans Vertex AI, avec un prompt permettant de générer une solution détaillée à la question du client.
- Gemini génère une solution, telle que des instructions détaillées ou un tutoriel vidéo.
- Le service de génération de solutions fournit la solution au client via l'application du centre d'assistance.
Produits utilisés
Cette architecture d'exemple utilise les Google Cloud produits suivants :
- Google Kubernetes Engine (GKE) : service Kubernetes que vous pouvez utiliser pour déployer et exploiter des applications conteneurisées à grande échelle, à l'aide de l'infrastructure de Google.
- Vertex AI : plate-forme de ML qui vous permet d'entraîner et de déployer des modèles de ML et des applications d'IA, et de personnaliser les LLM à utiliser dans des applications basées sur l'IA.
- Cloud Storage : store d'objets économique et sans limite pour tout type de données. Les données sont accessibles depuis et en dehors de Google Cloud Google Cloud, et sont répliquées sur plusieurs emplacements à des fins de redondance.
Déploiement
Pour tester les applications d'assistance client assistée par l'IA dans Google Cloud, utilisez les exemples de code suivants :
- Créer une application d'assistance client qui utilise l'IA générative.
- Exemple de prompt pour les cas d'utilisation de l'assistance client assistée par l'IA.
Étape suivante
- Créer un agent d'assistance client à l'aide de Gemini.
- Créer des agents d'IA pour les cas d'utilisation de l'assistance client à l'aide de playbooks, flux, et data stores dans Dialogflow CX.
- Découvrir d'autres guides d'architecture d'IA générative.
- Pour obtenir une présentation des principes et recommandations d'architecture spécifiques aux charges de travail d'IA et de ML dans Google Cloud, consultez la section IA et ML du Framework d'architecture optimale.
- Pour découvrir d'autres architectures de référence, schémas et bonnes pratiques, consultez le Centre d'architecture cloud.
Contributeurs
Auteur : Kumar Dhanagopal | Cross-product solution developer
Autres contributeurs :
- Amina Mansour | Responsable de l'équipe Cloud Platform Evaluations
- Megan O'Keefe | Experte en relations avec les développeurs
- Samantha He | Rédactrice technique
- Shir Meir Lador | Responsable de l'ingénierie des relations avec les développeurs