Ce document répond à certaines des questions fréquentes concernant Knowledge Catalog (anciennement Dataplex Universal Catalog).
Pour en savoir plus sur Knowledge Catalog, consultez la présentation de Knowledge Catalog.
Qu'est-ce que Knowledge Catalog ?
Google Knowledge Catalog est une solution de gouvernance intelligente pour les composants de données et d'IA dans Google Cloud. Il fournit un inventaire centralisé dans lequel vous pouvez découvrir, gérer et gouverner vos données dans des sources de données telles que BigQuery, Cloud Storage, Pub/Sub et Spanner. Google Cloud Il utilise l'IA pour automatiser la découverte des données, l'enrichissement des métadonnées et la qualité des données. Grâce à son catalogue de données gouverné, Knowledge Catalog fournit l'ancrage essentiel dont les agents d'IA ont besoin pour générer du contenu de haute qualité.
Qu'est-ce que Data Catalog ?
Data Catalog était le nom d'origine du service de métadonnées de Google Cloud's. Au fil du temps, il est devenu Dataplex Universal Catalog, puis a été renommé et transformé en Knowledge Catalog.
Bien que le terme "Data Catalog" soit toujours utilisé pour décrire ce type d' indexation de données, dans le contexte de Google Cloud, il fait référence à notre ancien produit. Nous recommandons à tous les nouveaux projets d'utiliser Knowledge Catalog pour profiter des fonctionnalités basées sur l'IA et d'une gouvernance améliorée.
Knowledge Catalog est-il différent de Data Catalog ?
Oui, Knowledge Catalog est la plate-forme de gouvernance des données basée sur l'IA qui finira par remplacer Data Catalog. Bien qu'ils partagent des concepts similaires, Knowledge Catalog offre plusieurs améliorations :
Contexte optimisé par l'IA : contrairement à Data Catalog, Knowledge Catalog utilise Gemini pour extraire automatiquement le contexte commercial, générer des descriptions en langage naturel et fournir des « requêtes de référence » SQL pour ancrer les agents d'IA.
Prise en charge des métadonnées enrichies : Knowledge Catalog prend en charge des types de métadonnées plus complexes, tels que les tableaux, les cartes et les enregistrements imbriqués.
Accès agentique : les agents d'IA peuvent découvrir et utiliser de manière adaptative les outils Knowledge Catalog via un serveur MCP local ou distant.
Découverte des données : Knowledge Catalog peut ingérer automatiquement des métadonnées à partir d'un plus grand nombre de Google Cloud services et de sources de données externes.
Gouvernance à grande échelle : il offre des fonctionnalités améliorées pour le profilage des données, la qualité automatique des données et la gouvernance centralisée.
À quoi sert Knowledge Catalog ?
Google Knowledge Catalog résout le problème du "démarrage à froid des données", c'est-à-dire le temps perdu à essayer de trouver, de comprendre et de faire confiance aux données avant de pouvoir les utiliser. Ses principales utilisations sont les suivantes :
Découverte accélérée des données : au lieu de naviguer dans des silos organisationnels complexes pour localiser les données, vous pouvez utiliser la recherche en langage naturel (par exemple, "Affichez-moi les données les plus récentes sur le taux de désabonnement des clients") pour trouver instantanément des éléments dans les Google Cloud ressources, ce qui augmente la productivité des consommateurs de données.
Ancrage des agents d'IA : il sert de "source de référence" pour l'IA générative ou ADK. En associant les données physiques aux définitions commerciales, il garantit que les agents d'IA (comme ceux basés sur Vertex AI) utilisent des données de haute qualité, ce qui réduit considérablement les hallucinations de l'IA et améliore la confiance dans les insights générés par l'IA.
Gouvernance automatisée des données : il analyse automatiquement vos données pour identifier les informations sensibles (telles que les informations permettant d'identifier personnellement l'utilisateur), suit la provenance des données (traçabilité) et surveille leur exactitude (qualité automatique des données). Ces fonctionnalités contribuent à améliorer la confiance dans les données, la sécurité et la conformité avec moins d'efforts manuels.
Découverte des "données sombres" : il peut analyser des fichiers non structurés (tels que des PDF ou des images dans Cloud Storage), extraire les informations qu'ils contiennent et les rendre consultables et interrogeables dans BigQuery, ce qui vous permet d'obtenir des insights à partir de données auparavant inaccessibles.
Pour des cas d'utilisation pratiques, consultez Explorer Knowledge Catalog.
Quels types de métadonnées Knowledge Catalog stocke-t-il ?
Knowledge Catalog stocke trois types de métadonnées :
Métadonnées techniques : schémas, noms de tables et propriétés système collectés automatiquement.
Métadonnées commerciales : contexte défini par l'utilisateur, tel que les descriptions commerciales, les termes du glossaire et la propriété.
Métadonnées d'exécution : informations sur la traçabilité des données, les scores de qualité des données et les statistiques de profilage des données.
Comment migrer depuis Data Catalog ?
La transition vers Knowledge Catalog est conçue pour être transparente, sans aucun déplacement manuel de données. Selon votre utilisation actuelle, le processus comporte deux phases principales :
Phase préparatoire : si vous disposez de métadonnées personnalisées (tags, modèles de tags ou entrées personnalisées), ce contenu est automatiquement importé dans Knowledge Catalog en lecture seule. Au cours de cette phase, vous effectuez des tâches de configuration pour rendre le contenu de votre Data Catalog existant simultanément disponible dans la nouvelle interface.
Phase de transfert : une fois la préparation terminée, vous transférez l'état actif de vos métadonnées pour les rendre accessibles en lecture/écriture dans Knowledge Catalog. Cette étape doit être coordonnée avec la mise à jour de toutes les charges de travail programmatiques (API, bibliothèques clientes ou modules Terraform) pour qu'elles pointent vers les nouveaux points de terminaison Knowledge Catalog.
Si vous n'avez pas de métadonnées personnalisées ou si vous êtes un nouvel utilisateur de la plate-forme, vous pouvez effectuer la transition en définissant Knowledge Catalog comme interface utilisateur par défaut dans la Google Cloud console.
Pour en savoir plus, consultez Passer de Data Catalog à Knowledge Catalog.