Cas d'utilisation de l'IA agentive : classer des données multimodales

Last reviewed 2026-03-03 UTC

Ce document fournit une architecture de haut niveau pour un système d'IA multi-agents déployé sur Cloud Run qui analyse des données multimodales disparates et produit une classification à haute confiance. Cette approche valide de manière croisée les médias fragmentés en comparant les données en direct à la vérité terrain historique pour produire des insights ancrés et vérifiables.

Ce document s'adresse aux architectes, aux développeurs et aux administrateurs qui créent et gèrent des infrastructures et des applications d'IA dans le cloud. Dans ce document, nous partons du principe que vous avez déjà acquis les connaissances de base sur les agents et les modèles d'IA. Ce document ne fournit pas de conseils spécifiques pour la conception et le codage d'agents d'IA.

La section Déploiement de ce document répertorie des exemples de code que vous pouvez utiliser pour découvrir comment créer et déployer des systèmes d'IA multi-agents.

Architecture

Le schéma suivant illustre l'architecture du système d'IA multi-agents qui utilise un modèle de conception d'agent parallèle pour coordonner l'analyse indépendante des données multimodales afin de produire une classification unique.

Architecture d'un système d'IA multi-agents qui classifie les données multimodales.

L'architecture présente le flux de données suivant :

  1. L'application Web envoie une requête à l'agent racine pour analyser un ensemble de données multimodales à des fins de classification. L'agent racine est un agent coordinateur qui reçoit des requêtes et est déployé sur un service Cloud Run.
  2. L'agent racine gère la requête de la manière suivante :
    1. L'agent racine lance un before_agent_callback pour collecter les configurations d'environnement, valider l'entrée utilisateur et enregistrer les chemins d'accès aux ressources dans un état de session partagé . Tous les sous-agents peuvent accéder à l'état de session partagé, ce qui élimine les appels redondants pour récupérer les données d'état et réduit la latence globale.
    2. L'agent racine utilise Gemini sur Vertex AI pour interpréter la requête de l'utilisateur et distribuer les tâches à des sous-agents spécialisés qui s'exécutent en parallèle.
  3. Chaque sous-agent est spécialisé dans un domaine particulier et effectue les tâches suivantes de manière indépendante :
    1. Les sous-agents d'analyse d'images et de vidéos interagissent avec des serveurs MCP (Model Context Protocol) personnalisés pour effectuer les actions suivantes :
      1. Récupérer des données brutes non structurées stockées dans un bucket Cloud Storage.
      2. Envoyer une requête à Gemini pour interpréter les données d'entrée, les classifier et calculer un niveau de confiance.
      3. Gemini renvoie la classification suggérée et le niveau de confiance au serveur MCP personnalisé.
      4. Le serveur MCP personnalisé renvoie la réponse au sous-agent.
    2. Le sous-agent d'analyse des données structurées orchestre l'analyse en effectuant les tâches suivantes :
      1. Interagit avec le serveur MCP BigQuery pour récupérer des données structurées et contextuelles (telles que des enregistrements historiques, des journaux d'événements ou des lectures de capteurs) stockées dans un ensemble de données BigQuery.
      2. L'analyste de données structurées envoie une requête à Gemini pour interpréter les données d'entrée, les classifier et calculer un niveau de confiance.
      3. Gemini renvoie la classification suggérée et le niveau de confiance au sous-agent.
  4. Chaque sous-agent renvoie la classification suggérée et le niveau de confiance à l'agent racine.
  5. L'agent racine utilise Gemini pour résumer les sorties des sous-agents spécialisés afin de produire une classification unique à haute confiance.
    • Si la majorité des classifications des sous-agents spécialisés correspondent, l'agent racine envoie la classification correspondante à l'application Web.
    • Si les sous-agents ne fournissent pas de classification correspondante, l'agent racine sélectionne la classification avec le niveau de confiance le plus élevé et l'envoie à l'application Web.

Produits utilisés

Cette architecture de référence utilise les Google Cloud produits et outils suivants :

  • Cloud Run : plate-forme de calcul gérée qui vous permet d'exécuter des conteneurs directement sur l'infrastructure évolutive de Google.
  • Vertex AI : plate-forme de ML qui vous permet d'entraîner et de déployer des modèles de ML et des applications d'IA, et de personnaliser les LLM à utiliser dans des applications basées sur l'IA.
  • Gemini: famille de modèles d'IA multimodaux développés par Google.
  • BigQuery : entrepôt de données d'entreprise qui vous aide à gérer et analyser vos données grâce à des fonctionnalités intégrées telles que l'analyse géospatiale du machine learning et l'informatique décisionnelle.
  • Cloud Storage : store d'objets économique et sans limite pour tout type de données. Les données sont accessibles depuis et en dehors de Google Cloud Google Cloud, et sont répliquées sur plusieurs emplacements à des fins de redondance.
  • Serveurs MCP Google Cloud : services distants gérés par Google qui implémentent le protocole MCP (Model Context Protocol) pour permettre aux applications d'IA d'accéder aux produits et services Google et Google Cloud.
  • Protocole MCP (Model Context Protocol) : norme Open Source permettant de connecter des applications d'IA à des systèmes externes.
  • Agent Development Kit (ADK) : ensemble d'outils et de bibliothèques permettant de développer, de tester et de déployer des agents d'IA.

Pour savoir comment sélectionner d'autres composants pour votre système d'IA agentique, y compris le framework, l'environnement d'exécution de l'agent, les outils, la mémoire et les modèles de conception , consultez Choisir les composants de votre architecture d'IA agentique.

Cas d'utilisation

Cette architecture est conçue pour les cas d'utilisation qui synthétisent diverses données multimodales pour les tâches de classification et de détection. Pour une précision et une évolutivité accrues, l'architecture utilise un système d'IA multi-agents au lieu d'une approche monolithique à agent unique. Ce modèle de conception fournit des instructions ciblées, évite les directives conflictuelles, permet d'utiliser des ensembles d'outils plus petits pour prendre des décisions plus rapidement et prend en charge les mises à jour indépendantes, ce qui permet d'obtenir des résultats plus robustes et sophistiqués.

Voici quelques exemples de cas d'utilisation de l'architecture décrite dans ce document :

  • Diagnostic médical : fournissez des évaluations diagnostiques complètes en déployant des agents spécialisés pour analyser indépendamment les images médicales, les symptômes des patients et les résultats de laboratoire. Le système d'IA résume ces résultats en fonction d'un seuil de confiance déterminé afin de fournir aux cliniciens des insights ancrés et vérifiables.
  • Détection de la fraude : détectez et signalez les fraudes potentielles en déployant des agents pour analyser indépendamment les schémas de comportement des utilisateurs et les données de transaction, telles que les reçus numérisés et les factures des marchands. En comparant les preuves visuelles des documents à l'activité du réseau numérique, le système identifie les écarts et signale toutes les transactions pour lesquelles un seul agent identifie un indicateur suspect.
  • Traitement de documents : automatisez la classification et l'extraction d' informations à partir de documents en déployant des agents spécialisés pour la reconnaissance optique de caractères (OCR), la classification de documents et l'extraction de données. Pour prendre en charge le traitement à haute confiance, le système d'IA exige que tous les agents s'accordent sur la sortie.
  • Contrôle qualité : classez la qualité des produits ou détectez les anomalies en déployant des agents spécialisés pour l'inspection visuelle, l'analyse des données de capteurs et la vérification des spécifications. Le système détermine si le produit est conforme ou non en fonction d'un seuil de confiance déterminé parmi les agents.

Considérations de conception

Pour implémenter cette architecture en production, tenez compte des recommandations suivantes :

Pour en savoir plus sur les facteurs de conception et les bonnes pratiques, ainsi que pour obtenir des recommandations sur la création et le déploiement d'un système d'IA multi-agents, consultez Système d'IA multi-agents dans Google Cloud.

Déploiement

Pour déployer un exemple d'implémentation de cette architecture, essayez l' atelier de programmation Way Back Home Level 1.

Étape suivante

Contributeurs

Auteur : Samantha He | Rédactrice technique

Autres contributeurs :