À mesure que les écosystèmes de données deviennent de plus en plus complexes, les applications d'IA nécessitent plus qu'un simple accès aux données brutes. Ils ont besoin de contexte commercial. Knowledge Catalog est une évolution de Dataplex, qui met l'accent sur l'autonomisation de l'IA et des systèmes agentiques.
Au cœur de cette plate-forme, une carte unifiée associe vos éléments de données physiques à la sémantique métier, aux règles de gouvernance et aux relations d'utilisation. En intégrant Knowledge Catalog à vos workflows d'IA, vous pouvez obtenir les résultats suivants :
Ancrez les agents IA pour fournir des métadonnées fiables, à jour et contextuelles afin de guider leur raisonnement.
Réduisez les hallucinations et assurez-vous que les modèles génératifs basent leurs réponses sur des vérités établies de l'entreprise.
Fournissez un contexte unifié (une vue unique et contrôlée de votre paysage de données) aux agents d'IA.
Cas d'utilisation
Knowledge Catalog joue des rôles distincts tout au long du cycle de vie des données et de l'IA :
Développeurs d'IA et créateurs d'agents : Développeurs qui créent des bots ou des agents personnalisés (par exemple, à l'aide de LangChain ou de l'Agent Development Kit (ADK)) qui doivent interroger et comprendre les données de l'entreprise.
- Cas d'utilisation : recherche et récupération de contexte en langage naturel pour permettre aux agents de travailler avec des données d'entreprise ; découverte de données agentive.
Analystes de données. Utilisateurs qui utilisent des outils assistés par l'IA tels que Gemini dans BigQuery ou Looker pour trouver des données et comprendre leur signification commerciale.
- Cas d'utilisation : requêtes en langage naturel et exploration conversationnelle des données.
Intendants de données : Experts du domaine qui supervisent l'enrichissement des métadonnées par l'IA et garantissent la qualité du contexte du catalogue.
- Cas d'utilisation : examiner, organiser et promouvoir les métadonnées et les descriptions générées par IA.
Accéder au contexte Knowledge Catalog avec MCP
Le protocole MCP (Model Context Protocol) est un pont standardisé qui permet aux agents et outils d'IA de se connecter de manière fluide à des sources de données telles que Knowledge Catalog.
Pour s'adapter à différents workflows de déploiement, Knowledge Catalog propose deux types d'implémentations MCP. Pour configurer votre environnement, il est essentiel de comprendre quand utiliser chaque méthode :
Serveur MCP distant : lorsque vous créez des applications cloud natives, déployez des agents dans des environnements sans serveur (comme Cloud Run) ou intégrez des services gérés externes où vous souhaitez éviter de gérer l'infrastructure locale.
MCP Toolbox local : lors du développement d'agents locaux, du prototypage rapide ou lorsque vous avez besoin d'une intégration directe avec des IDE de bureau locaux tels que VS Code ou Cursor.
Serveur MCP distant
Point de terminaison hébergé par Google qui permet d'accéder directement aux outils Knowledge Catalog pour les applications et services d'IA (par exemple, les agents s'exécutant sur Cloud Run ou les services externes comme Claude).
- Point de terminaison :
https://dataplex.googleapis.com/mcp - Avantages : pas besoin d'exécuter un serveur MCP local, adapté aux environnements sans serveur.
- Référence : Utiliser un serveur MCP distant
MCP Toolbox local
Outil de ligne de commande qui sert de proxy local entre votre IDE (par exemple, VS Code, Cursor) ou vos outils locaux et Knowledge Catalog.
- Installation : binaire téléchargeable.
- Configuration : implique généralement un fichier
.mcp.jsonou de paramètres dans la configuration de votre projet ou de votre IDE. - Avantages : idéal pour les environnements de développement sécurisés en local et l'intégration à différents IDE.
- Référence : Utiliser un serveur MCP local
Enrichir le contexte pour Knowledge Catalog
Pour maximiser la valeur de Knowledge Catalog pour l'IA, le graphique sous-jacent doit être riche en contexte métier. Vous pouvez y parvenir grâce à des fonctionnalités prêtes à l'emploi ou à un enrichissement agentique personnalisé.
Enrichissement prêt à l'emploi avec des insights sur les données
Les insights sur les données (optimisés par Gemini dans BigQuery) enrichissent automatiquement votre catalogue, ce qui réduit le problème de "démarrage à froid" pour les nouvelles plates-formes de données. Lorsqu'il est activé, il génère automatiquement les éléments suivants :
- Descriptions au niveau de l'ensemble de données et des colonnes.
- Graphiques de relations entre les tables.
- Exemples de requêtes basées sur l'historique des habitudes d'utilisation.
Cela permet aux agents en aval de comprendre immédiatement la sémantique sans nécessiter de gestion manuelle des données.
Par exemple, pour une table nommée telco_churn, les insights sur les données peuvent générer automatiquement des descriptions pour des champs tels que Tenure et MonthlyCharges, déduire des relations avec les tables client et publier un exemple de requête (par exemple, pour trouver les taux de désabonnement par segment) dans le catalogue.
Enrichissement du contexte personnalisé avec des agents
Pour les organisations disposant de bases de connaissances spécialisées, vous pouvez créer des agents d'enrichissement personnalisés pour ingérer des métadonnées provenant de sources spécifiques telles que des wikis internes, des dépôts de code ou des systèmes propriétaires.
API Knowledge Catalog (opérations CRUD) : à utiliser pour ajouter ou mettre à jour des métadonnées dans le catalogue.
- Par exemple, appelez la méthode d'API
UpdateEntrypour associer de manière programmatique un aspect "Vue d'ensemble" à une table à l'aide de la documentation extraite d'un système interne.
- Par exemple, appelez la méthode d'API
Outils tels que l'ADK : utilisez-les pour créer vos agents d'enrichissement.
- Par exemple, créez un agent ADK basé sur Java qui utilise des outils internes pour extraire des pages wiki techniques, utilise un LLM pour les analyser en termes de glossaire et synchronise les termes avec Knowledge Catalog.
Opérations d'exportation et d'importation : à utiliser pour les mises à jour groupées des métadonnées avec examen.
- Par exemple, exportez un glossaire d'entreprise généré par IA dans un fichier, demandez aux responsables des données de l'examiner et d'affiner les définitions de manière collaborative, puis importez le fichier finalisé dans le catalogue.
Étapes suivantes
Utilisez Knowledge Catalog avec MCP, Gemini et d'autres agents.
Accédez aux insights sur les données dans Knowledge Catalog.