Utiliser Knowledge Catalog avec BigQuery
Knowledge Catalog (anciennement Dataplex Universal Catalog) interagit avec BigQuery en tant que couche centrale de gouvernance des données et d'accès agentique pour les métadonnées de BigQuery. Pour en savoir plus, consultez la présentation de Knowledge Catalog.
Comment utiliser Knowledge Catalog avec BigQuery ?
Knowledge Catalog interagit avec BigQuery de différentes manières :
Ingestion automatisée de métadonnées
Knowledge Catalog détecte et indexe automatiquement les métadonnées techniques des éléments BigQuery. parmi lesquels :
- Types d'assets : ensembles de données, tables, vues, modèles, routines, connexions et ensembles de données associés.
- BigQuery Sharing : échanges et fiches de BigQuery Sharing (anciennement Analytics Hub).
- Mises à jour en temps réel : le système accepte l'ingestion en temps quasi réel et fournit des flux de modifications des métadonnées à l'aide de Pub/Sub pour informer les systèmes en aval des modifications ou des suppressions de schémas dans BigQuery.
- Découverte des données obscures : Knowledge Catalog peut analyser les fichiers non structurés (comme les PDF dans Cloud Storage), extraire les entités et les convertir en éléments interrogeables dans BigQuery. Cette fonctionnalité permet de rendre les "données obscures" auparavant inaccessibles disponibles pour l'analyse de données basée sur BigQuery et l'ancrage de l'IA.
Représentation et enrichissement des métadonnées
- Entrées : chaque table ou élément BigQuery est représenté sous forme d'entrée dans le catalogue, plutôt que sous forme de table entière (par exemple,
project.dataset.table). - Métadonnées au niveau des colonnes : les colonnes ou les champs individuels sont représentés sous forme de chemins d'accès, ce qui vous permet d'associer des métadonnées spécifiques, comme des indicateurs d'informations permettant d'identifier personnellement l'utilisateur ou des scores de qualité des données, à des champs individuels d'une table BigQuery plutôt qu'à la table elle-même.
- Aspects : les métadonnées techniques sont enrichies avec des aspects, qui ajoutent un contexte métier aux données, comme la propriété, la qualité des données et la documentation.
- Produits de données : vous pouvez regrouper des composants BigQuery associés dans des produits de données (par exemple, des données d'entreprise e-commerce) qui partagent des contraintes d'accès et de gouvernance.
Découverte et recherche de données
- Recherche sémantique : les utilisateurs peuvent utiliser le langage naturel pour rechercher des données BigQuery. Cette fonctionnalité est particulièrement utile pour les data scientists et les agents d'IA qui souhaitent trouver des produits de données fiables à l'aide de requêtes longues ou complexes.
- Traduction des noms : pour faciliter la recherche programmatique, le système permet de traduire les noms BigQuery SQL, ou les noms complets, en noms d'entrées du catalogue de connaissances.
Accès et ancrage agentiques
- Accès agentique : les agents d'IA peuvent découvrir et utiliser de manière adaptative les outils du catalogue de connaissances via un serveur MCP local ou distant.
- Contexte pour les agents d'IA : Knowledge Catalog organise un graphique contextuel qui associe les ensembles de données BigQuery à la sémantique métier, ce qui permet de réduire les hallucinations de l'IA en s'assurant que les modèles utilisent des données approuvées par l'entreprise.
Gouvernance et conformité
- Traçabilité des données : Knowledge Catalog suit automatiquement le flux et la transformation des données dans les tables BigQuery. Cette fonctionnalité est essentielle pour auditer les informations sensibles, comme les informations permettant d'identifier personnellement l'utilisateur, dans l'ensemble des données.
- Contrôle des accès : la gestion des métadonnées est intégrée à Identity and Access Management (IAM) et à VPC Service Controls pour garantir que la découverte et l'accès aux métadonnées BigQuery respectent les règles de sécurité de l'organisation.
Considérations sur la migration
La migration vers Knowledge Catalog à partir de Data Catalog, qui est obsolète, comporte plusieurs étapes. Les métadonnées standards de BigQuery (comme les ensembles de données, les tables et les vues) sont automatiquement disponibles dans Knowledge Catalog. Le processus de migration se concentre donc principalement sur les métadonnées personnalisées, l'utilisation de l'API et les paramètres par défaut de l'interface utilisateur.
Voici les principaux points à prendre en compte lors de la migration :
Comprendre la modification
Knowledge Catalog offre des fonctionnalités améliorées pour la gestion, la gouvernance et la découverte des métadonnées par rapport à Data Catalog. Knowledge Catalog utilise une API différente (l'API Knowledge Catalog) et un modèle de données légèrement différent. Par exemple, Knowledge Catalog utilise des aspects et des types d'aspects au lieu de tags et de modèles de tags.
Évaluer l'utilisation actuelle du catalogue de données
- Aucune métadonnée personnalisée : si vous n'avez utilisé le catalogue de connaissances que pour l'ingestion et la découverte automatiques des métadonnées BigQuery standards sans créer de tags, de modèles de tags, d'entrées ou de groupes d'entrées personnalisés, la transition est simple. Vous pouvez commencer à utiliser l'interface Knowledge Catalog immédiatement.
- Métadonnées personnalisées ou utilisation programmatique : si vous avez créé des tags ou des modèles personnalisés, des entrées personnalisées, ou si vous utilisez l'API Data Catalog, les bibliothèques clientes, les commandes Google Cloud CLI ou Terraform, vous avez besoin d'une transition plus structurée.
Remarques spécifiques à BigQuery
- Ingestion automatique : les métadonnées techniques des composants BigQuery (ensembles de données, tables, vues, modèles et routines) continuent d'être ingérées automatiquement dans Knowledge Catalog, comme c'était le cas avec Dataplex Universal Catalog.
- Tags avec stratégie : les tags avec stratégie utilisés pour le contrôle des accès au niveau des colonnes BigQuery ne sont pas obsolètes et leur gestion reste dans BigQuery.
- Traçabilité : la traçabilité des données pour les opérations BigQuery est affichée dans le catalogue de connaissances. Pour en savoir plus sur la traçabilité des données, consultez Suivre la traçabilité des données pour une table BigQuery.
Suivez le guide de transition
Pour migrer vers Knowledge Catalog, suivez les étapes décrites dans Passer de Data Catalog à Knowledge Catalog.
Pour mettre à jour les workflows programmatiques vers l'API Knowledge Catalog, consultez Mapper les méthodes de l'API Data Catalog à Knowledge Catalog.
Étapes suivantes
En savoir plus sur Knowledge Catalog :
- Cas d'utilisation de Knowledge Catalog
- Questions fréquentes sur Knowledge Catalog
- À propos de la gestion des métadonnées dans Knowledge Catalog