Ce document fournit une architecture de haut niveau pour un système d'IA multi-agents déployé sur Cloud Run qui analyse des données multimodales disparates et produit une classification à haute confiance. Cette approche valide de manière croisée les médias fragmentés en comparant les données en direct à la vérité terrain historique pour produire des insights ancrés et vérifiables.
Ce document s'adresse aux architectes, aux développeurs et aux administrateurs qui créent et gèrent des infrastructures et des applications d'IA dans le cloud. Dans ce document, nous partons du principe que vous avez déjà acquis les connaissances de base sur les agents et les modèles d'IA. Ce document ne fournit pas de conseils spécifiques pour la conception et le codage d'agents d'IA.
La section Déploiement de ce document répertorie des exemples de code que vous pouvez utiliser pour découvrir comment créer et déployer des systèmes d'IA multi-agents.
Architecture
Le schéma suivant illustre l'architecture du système d'IA multi-agents qui utilise un modèle de conception d'agent parallèle pour coordonner l'analyse indépendante des données multimodales afin de produire une classification unique.
L'architecture présente le flux de données suivant :
- L'application Web envoie une requête à l'agent racine pour analyser un ensemble de données multimodales à des fins de classification. L'agent racine est un agent coordinateur qui reçoit des requêtes et est déployé sur un service Cloud Run.
- L'agent racine gère la requête de la manière suivante :
- L'agent racine lance un
before_agent_callbackpour collecter les configurations d'environnement, valider l'entrée utilisateur et enregistrer les chemins d'accès aux ressources dans un état de session partagé . Tous les sous-agents peuvent accéder à l'état de session partagé, ce qui élimine les appels redondants pour récupérer les données d'état et réduit la latence globale. - L'agent racine utilise Gemini sur Vertex AI pour interpréter la requête de l'utilisateur et distribuer les tâches à des sous-agents spécialisés qui s'exécutent en parallèle.
- L'agent racine lance un
- Chaque sous-agent est spécialisé dans un domaine particulier et effectue les tâches suivantes de manière indépendante :
- Les sous-agents d'analyse d'images et de vidéos interagissent avec des serveurs MCP (Model Context
Protocol) personnalisés pour
effectuer les actions suivantes :
- Récupérer des données brutes non structurées stockées dans un bucket Cloud Storage.
- Envoyer une requête à Gemini pour interpréter les données d'entrée, les classifier et calculer un niveau de confiance.
- Gemini renvoie la classification suggérée et le niveau de confiance au serveur MCP personnalisé.
- Le serveur MCP personnalisé renvoie la réponse au sous-agent.
- Le sous-agent d'analyse des données structurées orchestre l'analyse en effectuant les tâches suivantes :
- Interagit avec le serveur MCP BigQuery pour récupérer des données structurées et contextuelles (telles que des enregistrements historiques, des journaux d'événements ou des lectures de capteurs) stockées dans un ensemble de données BigQuery.
- L'analyste de données structurées envoie une requête à Gemini pour interpréter les données d'entrée, les classifier et calculer un niveau de confiance.
- Gemini renvoie la classification suggérée et le niveau de confiance au sous-agent.
- Les sous-agents d'analyse d'images et de vidéos interagissent avec des serveurs MCP (Model Context
Protocol) personnalisés pour
effectuer les actions suivantes :
- Chaque sous-agent renvoie la classification suggérée et le niveau de confiance à l'agent racine.
- L'agent racine utilise Gemini pour résumer les sorties des sous-agents spécialisés afin de produire une classification unique à haute confiance.
- Si la majorité des classifications des sous-agents spécialisés correspondent, l'agent racine envoie la classification correspondante à l'application Web.
- Si les sous-agents ne fournissent pas de classification correspondante, l'agent racine sélectionne la classification avec le niveau de confiance le plus élevé et l'envoie à l'application Web.
Produits utilisés
Cette architecture de référence utilise les Google Cloud produits et outils suivants :
- Cloud Run : plate-forme de calcul gérée qui vous permet d'exécuter des conteneurs directement sur l'infrastructure évolutive de Google.
- Vertex AI : plate-forme de ML qui vous permet d'entraîner et de déployer des modèles de ML et des applications d'IA, et de personnaliser les LLM à utiliser dans des applications basées sur l'IA.
- Gemini: famille de modèles d'IA multimodaux développés par Google.
- BigQuery : entrepôt de données d'entreprise qui vous aide à gérer et analyser vos données grâce à des fonctionnalités intégrées telles que l'analyse géospatiale du machine learning et l'informatique décisionnelle.
- Cloud Storage : store d'objets économique et sans limite pour tout type de données. Les données sont accessibles depuis et en dehors de Google Cloud Google Cloud, et sont répliquées sur plusieurs emplacements à des fins de redondance.
- Serveurs MCP Google Cloud : services distants gérés par Google qui implémentent le protocole MCP (Model Context Protocol) pour permettre aux applications d'IA d'accéder aux produits et services Google et Google Cloud.
- Protocole MCP (Model Context Protocol) : norme Open Source permettant de connecter des applications d'IA à des systèmes externes.
- Agent Development Kit (ADK) : ensemble d'outils et de bibliothèques permettant de développer, de tester et de déployer des agents d'IA.
Pour savoir comment sélectionner d'autres composants pour votre système d'IA agentique, y compris le framework, l'environnement d'exécution de l'agent, les outils, la mémoire et les modèles de conception , consultez Choisir les composants de votre architecture d'IA agentique.
Cas d'utilisation
Cette architecture est conçue pour les cas d'utilisation qui synthétisent diverses données multimodales pour les tâches de classification et de détection. Pour une précision et une évolutivité accrues, l'architecture utilise un système d'IA multi-agents au lieu d'une approche monolithique à agent unique. Ce modèle de conception fournit des instructions ciblées, évite les directives conflictuelles, permet d'utiliser des ensembles d'outils plus petits pour prendre des décisions plus rapidement et prend en charge les mises à jour indépendantes, ce qui permet d'obtenir des résultats plus robustes et sophistiqués.
Voici quelques exemples de cas d'utilisation de l'architecture décrite dans ce document :
- Diagnostic médical : fournissez des évaluations diagnostiques complètes en déployant des agents spécialisés pour analyser indépendamment les images médicales, les symptômes des patients et les résultats de laboratoire. Le système d'IA résume ces résultats en fonction d'un seuil de confiance déterminé afin de fournir aux cliniciens des insights ancrés et vérifiables.
- Détection de la fraude : détectez et signalez les fraudes potentielles en déployant des agents pour analyser indépendamment les schémas de comportement des utilisateurs et les données de transaction, telles que les reçus numérisés et les factures des marchands. En comparant les preuves visuelles des documents à l'activité du réseau numérique, le système identifie les écarts et signale toutes les transactions pour lesquelles un seul agent identifie un indicateur suspect.
- Traitement de documents : automatisez la classification et l'extraction d' informations à partir de documents en déployant des agents spécialisés pour la reconnaissance optique de caractères (OCR), la classification de documents et l'extraction de données. Pour prendre en charge le traitement à haute confiance, le système d'IA exige que tous les agents s'accordent sur la sortie.
- Contrôle qualité : classez la qualité des produits ou détectez les anomalies en déployant des agents spécialisés pour l'inspection visuelle, l'analyse des données de capteurs et la vérification des spécifications. Le système détermine si le produit est conforme ou non en fonction d'un seuil de confiance déterminé parmi les agents.
Considérations de conception
Pour implémenter cette architecture en production, tenez compte des recommandations suivantes :
- Sécurité des agents : pour limiter la capacité d'un agent à effectuer des actions dangereuses, créez une identité d'agent, puis sécurisez l'accès à vos serveurs MCP à l'aide des attributs Identity and Access Management (IAM). En appliquant le principe du moindre privilège, vous pouvez vous assurer que votre système d'IA agentique se comporte comme prévu et empêcher tout accès en lecture/écriture non intentionnel à vos ressources de production.
- Sécurité de l'entrée : pour contrôler l'accès à l'application, désactivez l' URL run.app par défaut du service Cloud Run frontend et configurez un équilibreur de charge d'application externe régional. En plus d'équilibrer la charge du trafic entrant vers l'application, l'équilibreur de charge gère la gestion des certificats SSL. Pour une protection accrue, utilisez les stratégies de sécurité Google Cloud Armor pour fournir un filtrage des requêtes, une protection contre les attaques DDoS et une limitation du débit pour le service.
- Sécurité des images de conteneurs : pour vous assurer que seules les images de conteneurs autorisées sont déployées sur Cloud Run, utilisez l'autorisation binaire. Pour identifier et atténuer les risques de sécurité dans les images de conteneurs, exécutez automatiquement des analyses des failles à l'aide d' Artifact Analysis. Pour en savoir plus, consultez Présentation de l'analyse des conteneurs.
- Prompts rentables : la longueur de vos prompts (entrée) et des réponses générées (sortie) affecte directement les performances et les coûts. Rédigez des requêtes courtes, directes et fournissant un contexte suffisant. Pour en savoir plus, consultez les bonnes pratiques de conception des requêtes.
- Coûts de stockage : pour contrôler les coûts de stockage, vous pouvez choisir la classe de stockage standard et activer la gestion du cycle de vie des objets et la classe automatique. Ces fonctionnalités vous aident à optimiser les coûts en déplaçant ou en supprimant automatiquement des données entre les classes de stockage en fonction de vos schémas d'accès ou des règles que vous définissez.
- Sécurité du stockage : Cloud Storage propose deux systèmes pour contrôler l'accès des utilisateurs à vos buckets et objets : IAM et les listes de contrôle des accès (LCA). Dans la plupart des cas, nous vous recommandons d'utiliser IAM, qui vous permet d'accorder des autorisations au niveau du bucket et du projet. Pour en savoir plus, consultez la page Présentation du contrôle des accès.
- Allocation des ressources : en fonction de vos exigences en termes de performances, configurez les limites de mémoire et les limites de processeur à allouer au service Cloud Run. Pour obtenir d'autres conseils sur l'optimisation des performances, consultez Conseils de développement généraux pour Cloud Run.
Pour en savoir plus sur les facteurs de conception et les bonnes pratiques, ainsi que pour obtenir des recommandations sur la création et le déploiement d'un système d'IA multi-agents, consultez Système d'IA multi-agents dans Google Cloud.
Déploiement
Pour déployer un exemple d'implémentation de cette architecture, essayez l' atelier de programmation Way Back Home Level 1.
Étape suivante
- Découvrez comment héberger des agents d'IA sur Cloud Run.
- Découvrez comment créer et déployer un serveur MCP distant sur Cloud Run.
- Découvrez comment choisir les composants de votre architecture d'IA agentique.
- (Vidéo) Regardez le podcast Agent Factory sur la création d'outils personnalisés pour les agents.
- Découvrez d'autres guides d'architecture d'IA agentique.
- Pour obtenir une présentation des principes et recommandations d'architecture spécifiques aux charges de travail d'IA et de ML dans Google Cloud, consultez la perspective IA et ML du framework Well-Architected.
- Pour découvrir d'autres architectures de référence, schémas et bonnes pratiques, consultez le Centre d'architecture cloud.
Contributeurs
Auteur : Samantha He | Rédactrice technique
Autres contributeurs :
- Amina Mansour | Responsable de l'équipe d'évaluation de Cloud Platform
- Andrey Shakirov | Architecte de solutions, Google Cloud
- Ayo Adedeji | Ingénieur relations avec les développeurs
- Christina Lin | Responsable des ingénieurs relations avec les développeurs
- Kumar Dhanagopal | Développeur de solutions multiproduits
- Ryan Pei | Responsable produit, Google Cloud