Implémenter des workflows d'analyse agentique pour les données distribuées

Last reviewed 2026-06-09 UTC

Ce document fournit une architecture générale pour implémenter des workflows d'analyse multicloud qui utilisent des agents d'IA. Ce document est destiné aux architectes cloud, aux ingénieurs de données et aux data scientists qui souhaitent utiliser l'IA agentique pour les workflows d'analyse dans les lacs de données multicloud, les entrepôts de données structurées et les magasins de données non structurées. Dans ce document, nous partons du principe que vous avez une compréhension de base des concepts d'IA agentique, de l'analyse de données et de l'architecture cloud.

La section Déploiement de ce document fournit un atelier de programmation que vous pouvez utiliser pour apprendre à créer une solution d'analyse agentique.

Architecture

Le schéma suivant illustre l'architecture d'une solution d'analyse agentique qui tire des insights commerciaux à partir de données structurées et non structurées distribuées dans plusieurs magasins de données et fournisseurs de services cloud.

Architecture qui utilise un environnement de développement agentique et un modèle d'IA pour analyser les données distribuées sur Google Cloud et d'autres fournisseurs de services cloud.

Les composants de cette architecture sont organisés dans les couches suivantes :

  • Actions utilisateur et agentiques

    • Environnement de développement agentique : les experts en données, comme les ingénieurs de données et les data scientists, envoient des requêtes en langage naturel à l'aide de l'une des méthodes suivantes :
      • Un environnement de développement agentique tel que Google Antigravity IDE ou Microsoft Visual Studio Code.
      • Un agent CLI tel que Gemini CLI, Claude Code ou Codex.
    • Extension Google Cloud Data Agent Kit : cette extension permet aux agents d'accéder à des données fiables dansGoogle Cloud en chargeant les compétences appropriées et en se connectant aux serveurs MCP distants pour les services Google Cloud .
    • Modèle de fondation : pour générer des insights commerciaux à partir de données et d'un contexte fiables, l'environnement de développement agentique utilise un modèle de fondation, tel qu'un modèle de la famille Gemini. Le modèle utilise les compétences appropriées de l'extension Data Agent Kit et les outils de serveur MCP requis pour implémenter des workflows d'analyse complexes.
  • Workflows Analytics

    • Lakehouse pour Apache Iceberg : Lakehouse fournit un catalogue de métadonnées unifié et performant qui intègre le format de table ouvert Apache Iceberg au stockage de niveau Enterprise dans Google Cloud.
    • Managed Service pour Apache Spark : il s'agit du composant de traitement des données principal de l'architecture. La fonctionnalité Lightning Engine de Managed Service pour Apache Spark permet un traitement des données sans serveur hautes performances en mode batch et interactif. Les jobs de traitement de données Spark utilisent les métadonnées du catalogue Iceberg dans Lakehouse, lisent les données structurées à partir de BigQuery et effectuent des lectures sans copie à partir de sources externes telles qu'Amazon S3.
    • Knowledge Catalog : l'agent utilise Knowledge Catalog pour effectuer des analyses intelligentes des données non structurées dans Cloud Storage, extraire les métadonnées sémantiques et créer un graphique contextuel.
  • Magasins de données fiables

    • Données dans Google Cloud : BigQuery sert d'entrepôt central pour les données structurées, y compris les extraits structurés de données non structurées dans Cloud Storage.
    • Données provenant de sources externes : l'architecture montre des sources de données externes, telles que les données des buckets Amazon S3 et les métadonnées du catalogue Databricks Unity. Cross-Cloud Interconnect fournit une connectivité dédiée à haut débit entre Google Cloudet d'autres fournisseurs de services cloud.

Produits utilisés

L'architecture utilise les produits et outils suivants : Google Cloud

  • Google Cloud Data Agent Kit : extensions d'agent permettant aux data scientists, aux ingénieurs de données et aux développeurs d'applications de données de gérer l'intégralité du cycle de vie des données dans leurs environnements de développement agentiques préférés.
  • BigQuery : entrepôt de données d'entreprise qui vous aide à gérer et analyser vos données grâce à des fonctionnalités intégrées telles que l'analyse géospatiale du machine learning et l'informatique décisionnelle.
  • Managed Service pour Apache Spark : service géré qui exécute des charges de travail par lot Apache Spark sur une infrastructure de calcul gérée.
  • Lakehouse pour Apache Iceberg : moteur de stockage hautes performances qui vous permet de créer des data lakehouses ouverts et fournit une interface unifiée pour l'analyse avancée et l'IA.
  • Knowledge Catalog : service optimisé par l'IA qui fournit un catalogue unifié d'éléments de données avec des métadonnées intelligentes et des fonctionnalités de gouvernance.
  • Gemini: famille de modèles d'IA multimodaux développés par Google.
  • Cloud Storage : store d'objets économique et sans limite pour tout type de données. Les données sont accessibles depuis et en dehors de Google Cloud, et sont répliquées sur plusieurs emplacements à des fins de redondance.
  • Cross-Cloud Interconnect : service qui fournit une connectivité dédiée à bande passante élevée et à faible latence entre Google Cloud et d'autres fournisseurs de services cloud.
  • Serveurs MCP Google Cloud : services distants gérés par Google qui implémentent le protocole MCP (Model Context Protocol) pour permettre aux applications d'IA d'accéder aux produits et services Google et Google Cloud .

Cas d'utilisation

L'architecture décrite dans ce document convient aux cas d'utilisation suivants :

  • Analyse de données multicloud : interrogez et analysez efficacement les données distribuées sur Google Cloud et d'autres fournisseurs de services cloud sans déplacer de fichiers ni créer de pipelines d'extraction, de transformation et de chargement (ETL) complexes. Par exemple, un responsable marketing d'un marchand international peut analyser l'efficacité des campagnes marketing en associant les données de fidélité des clients dans Amazon S3 aux données des opérations marketing dans BigQuery.
  • Découverte intelligente des données : utilisez des requêtes en langage naturel et des agents d'IA pour découvrir, interroger et traiter des ensembles de données fédérés dans plusieurs environnements. Par exemple, un spécialiste des achats peut déterminer les causes courantes des perturbations de la chaîne d'approvisionnement en fonction des données structurées d'un système de gestion de la chaîne d'approvisionnement (SCM), combinées aux insights issus des communications par e-mail non structurées et des rapports d'évaluation des dommages.
  • Extraction de données structurées à partir de sources non structurées : analysez de grands volumes de données non structurées, dérivez des métadonnées sémantiques et stockez les extraits de données structurées dans BigQuery pour une analyse en aval. Par exemple, un contrôleur des opérations peut analyser efficacement les dépenses en extrayant des données structurées de milliers de factures stockées dans un format non structuré, tel que des fichiers PDF.

Déploiement

Pour découvrir comment créer une solution d'analyse agentique à l'aide de l'extension Data Agent Kit, consultez l'atelier de programmation Des données brutes aux prévisions en quelques secondes avec les agents IA. Cet atelier de programmation montre comment l'extension Data Agent Kit vous permet d'analyser efficacement les données depuis votre environnement de développement agentique préféré. Toutes les données exemples utilisées par l'atelier de programmation sont stockées dansGoogle Cloud.

Étapes suivantes

Contributeurs

Auteur : Kumar Dhanagopal | Cross-product solution developer

Autres contributeurs :