Vous vous êtes probablement déjà demandé ce que signifie un nom de colonne, à qui appartient cet ensemble de données corrompu ou si cette table peut être utilisée. Certains catalogues de données utilisent des tags non structurés pour ajouter ces informations, mais les tags deviennent rapidement obsolètes ou incohérents. Knowledge Catalog (anciennement Dataplex Universal Catalog) évite ce problème en vous permettant d'associer des métadonnées structurées et basées sur un schéma, ainsi que des définitions métier claires directement à vos éléments de données. Cette approche vous aide à créer une gouvernance programmatique à grande échelle.
Ce tutoriel vous explique comment commencer à utiliser la gouvernance des données dans Knowledge Catalog. Conçu pour les ingénieurs de données, les administrateurs de bases de données et les architectes de données, ce tutoriel vous guide à travers les étapes manuelles de l'interface utilisateur pour vous aider à créer un modèle mental solide avant d'automatiser ces workflows. Il clarifie les relations entre les concepts clés de Knowledge Catalog. À la fin de ce tutoriel, vous saurez comment rendre vos données détectables et fiables.
Objectifs
Dans ce tutoriel, vous allez apprendre à effectuer les opérations suivantes :
- Créer une source fiable unique pour vos termes métier avec un glossaire d'entreprise.
- Structurer et organiser vos métadonnées avec des types d'aspects.
- Associer des métadonnées à vos éléments avec des aspects.
- Utiliser la recherche Knowledge Catalog pour trouver exactement ce dont vous avez besoin à l'aide de ces nouvelles métadonnées structurées.
Avant de commencer
Avant de commencer, procédez comme suit :
- Sélectionnez un Google Cloud projet pour ce tutoriel.
- Vérifiez que la facturation est activée pour votre projet.
Configurer votre environnement
Ce tutoriel utilise Cloud Shell, un environnement de ligne de commande qui s'exécute dans le cloud.
Dans la Google Cloud console, cliquez sur Activer Cloud Shell en haut à droite de la barre d'outils. Le provisionnement et la connexion à l'environnement prennent quelques instants.
Dans Cloud Shell, définissez vos variables
PROJECT_IDetLOCATIONafin que toutes les commandes futures ciblent votre projet spécifique Google Cloud .export PROJECT_ID=$(gcloud config get-value project) gcloud config set project $PROJECT_ID export LOCATION="us-central1"Activez les services nécessaires Google Cloud .
gcloud services enable \ dataplex.googleapis.com \ bigquery.googleapis.com \ datacatalog.googleapis.com
Créer un ensemble de données BigQuery et préparer des exemples de données
Utilisez le code suivant pour créer un ensemble de données BigQuery et charger des exemples de transactions CSV dans une table. Une fois la table créée, Knowledge Catalog la détecte automatiquement et crée une entrée pour elle dans le catalogue.
Considérez une entrée comme la représentation d'un élément de données dans Knowledge Catalog. Il s'agit d'un enregistrement dans le catalogue auquel vous pouvez associer des métadonnées de gouvernance. Au lieu de gérer directement la table BigQuery, vous gérez son entrée dans Knowledge Catalog.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Retail data for governance codelab" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into a BigQuery table
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
Exécutez une requête SELECT pour vérifier votre configuration :
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
Exemple de résultat :
+----------------+------------------+-------+------------------+
| transaction_id | user_email | gmv | transaction_date |
+----------------+------------------+-------+------------------+
| 1001 | test@example.com | 150.5 | 2025-08-28 |
| 1002 | user@example.com | 75.0 | 2025-08-28 |
+----------------+------------------+-------+------------------+
Établir des termes communs avec un glossaire d'entreprise
Une bonne gouvernance repose sur des définitions claires. Par exemple, un développeur ne devrait pas avoir à deviner si une colonne nommée gmv signifie "Valeur brute des marchandises" ou si elle inclut les taxes ou les retours. Un glossaire d'entreprise résout ce problème en créant une source fiable unique qui dissocie les définitions métier des détails techniques. Cela garantit que des termes tels que "Valeur brute des marchandises" signifient la même chose pour tous, de l'équipe commerciale aux finances.
Suivez ces étapes pour créer un glossaire et définir votre premier terme :
Dans la Google Cloud console, accédez à la page Glossaires de Knowledge Catalog.
Cliquez sur Créer un glossaire d'entreprise.
Saisissez les informations suivantes :
- Display name (Nom à afficher) :
Retail Business Glossary - Adresse:
us-central1 (Iowa)
- Display name (Nom à afficher) :
Cliquez sur Créer.
Cliquez sur Créer une catégorie.
Nommez la catégorie
Sales Metrics, puis cliquez sur Créer.Sélectionnez la catégorie Sales Metrics (Métriques de vente), puis cliquez sur Ajouter un terme.
Nommez le terme
Gross Merchandise Value(Valeur brute des marchandises), puis cliquez sur Créer.Cliquez sur le terme Gross Merchandise Value (Valeur brute des marchandises) pour ouvrir sa page d'informations.
Cliquez sur Ajouter à côté de Vue d'ensemble. Saisissez les informations suivantes :
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.(La valeur totale des marchandises vendues sur une période donnée avant déduction des frais ou dépenses. Il s'agit d'un indicateur clé de la croissance du commerce électronique.)Cliquez sur Enregistrer.
Vous avez créé un terme de glossaire que vous pouvez associer à des éléments de données dans toute votre organisation.
Définir des métadonnées techniques avec un type d'aspect
Si vous devez savoir qui est propriétaire d'un élément de données particulier, les tags clé/valeur ne suffisent pas. Vous ne voulez pas qu'une table soit taguée owner:bob et une autre contact:alice@example.com. Vous souhaitez un schéma structuré qui exige que les informations sur le propriétaire soient au format d'adresse e-mail valide.
Pour répondre à ce besoin, Knowledge Catalog est compatible avec les types d'aspects. Un type d'aspect est comme un plan pour vos métadonnées qui vous permet de définir des règles claires et des champs obligatoires. Cela garantit que toutes les métadonnées que vous ajouterez ultérieurement resteront organisées.
Dans la Google Cloud console, accédez à l'onglet Types d'aspects de la page Types de métadonnées de Knowledge Catalog.
Dans l'onglet Custom (Personnalisé), cliquez sur Create (Créer).
Saisissez les informations suivantes :
- Display name (Nom à afficher) :
Data Asset Governance - Adresse:
us-central1 (Iowa)
- Display name (Nom à afficher) :
Dans la section Template (Modèle), cliquez sur Add Field (Ajouter un champ) pour créer les trois champs suivants :
Champ 1 :
- Display name (Nom à afficher) :
Data Steward - Type:
Text - Is Required (Obligatoire) : cochez la case.
- Type de texte :
Plain text
- Display name (Nom à afficher) :
Champ 2 (cliquez sur Add field (Ajouter un champ)) :
- Display name (Nom à afficher) :
Data Sensitivity - Type:
Enum - Is Required (Obligatoire) : laissez le champ facultatif.
- Values (Valeurs) : ajoutez
Public,InternaletConfidential.
- Display name (Nom à afficher) :
Champ 3 (cliquez sur Add a field (Ajouter un champ)) :
- Display name (Nom à afficher) :
Last Review Date - Is Required (Obligatoire) : laissez le champ facultatif.
- Type:
Date and time
- Display name (Nom à afficher) :
Cliquez sur Enregistrer.
Vous disposez maintenant d'un type d'aspect pour les champs de métadonnées liés à la gouvernance, tels que le responsable des données, le niveau de sensibilité et la date de révision. Dans la section suivante, vous appliquerez ce schéma à une entrée de table en associant un aspect avec des valeurs spécifiques pour ces champs.
Enrichir une entrée avec des métadonnées de gouvernance
Les noms de colonnes sont souvent abrégés ou ambigus. Associer une colonne à un terme de votre glossaire d'entreprise fournit une définition claire et cohérente. Dans cette étape, vous enrichissez l'entrée de la table retail_data.transactions en associant le terme Gross Merchandise Value (Valeur brute des marchandises) à une colonne nommée gmv et en utilisant votre type d'aspect pour associer un aspect à l'entrée de la table.
Associer une colonne à un terme métier
Pour clarifier la signification de la colonne gmv dans retail_data.transactions, associez-la à votre terme Gross Merchandise Value (Valeur brute des marchandises).
Dans la Google Cloud console, accédez à la page Search (Rechercher) de Knowledge Catalog.
Cliquez sur Filters (Filtres) pour ouvrir le panneau Filters (Filtres).
Pour Scope (Champ d'application), sélectionnez Current Project (Projet actuel).
Recherchez
retail_data.transactions, puis cliquez sur la table de transactions renvoyée.Cliquez sur l'onglet Schema (Schéma).
Cochez la case à côté de la colonne
gmv, puis cliquez sur Add business term (Ajouter un terme métier).Sélectionnez
Gross Merchandise Value(Valeur brute des marchandises).
Associer un aspect à l'entrée de la table
En plus d'associer des termes métier à des colonnes, vous pouvez associer un aspect à une entrée de table pour capturer des métadonnées de gouvernance au niveau de la table, telles que la propriété et la sensibilité des données.
Un aspect est une instance d'un type d'aspect, contenant des valeurs spécifiques pour les champs de métadonnées. Lorsque vous associez un aspect à une entrée, Knowledge Catalog vérifie les informations que vous fournissez par rapport au schéma défini dans le type d'aspect pour garantir la cohérence.
Pour définir la propriété et la sensibilité de la table retail_data.transactions, associez l'aspect Data Asset Governance :
- Dans l'onglet Details (Détails) de la page d'entrée
retail_data.transactions, cliquez sur Add (Ajouter) à côté de Optional aspects (Aspects facultatifs). - Sélectionnez
Data Asset Governancedans la liste. Saisissez des valeurs dans les champs :
- Data Steward (Responsable des données) :
finance-team@example.com - Data Sensitivity (Sensibilité des données) : sélectionnez Internal (Interne).
- Last Review Date (Date de la dernière révision) : sélectionnez la date du jour.
- Data Steward (Responsable des données) :
Cliquez sur Enregistrer.
Vous avez maintenant établi une base solide pour la gouvernance des données dans Knowledge Catalog.
Rechercher des entrées à l'aide de métadonnées enrichies
Vous avez enrichi l'entrée retail_data.transactions en associant une colonne à un terme métier et en associant un aspect. Vous pouvez maintenant utiliser la recherche Knowledge Catalog pour trouver des entrées en fonction de ces contextes métier. Par exemple, vous pouvez trouver tous les éléments avec un niveau de sensibilité spécifique ou rechercher votre terme de glossaire pour découvrir les tables sous-jacentes.
Dans la Google Cloud console, accédez à la page Search (Rechercher) de Knowledge Catalog.
Cliquez sur Filters (Filtres) pour ouvrir le panneau Filters (Filtres).
Pour Scope (Champ d'application), sélectionnez Current Project (Projet actuel).
Dans la barre de recherche, saisissez
Find tables where the Data Asset Governance aspect has Internal sensitivity.(Rechercher les tables où l'aspect "Gouvernance des éléments de données" a une sensibilité interne.)Votre table
retail_data.transactionsdevrait s'afficher dans la liste des résultats.Effacez le contenu de la barre de recherche et saisissez
Find tables with the Gross Merchandise Value term attached.(Rechercher les tables auxquelles le terme "Valeur brute des marchandises" est associé.)La table
retail_data.transactionsdevrait à nouveau s'afficher dans les résultats, car sa colonnegmvest directement associée à ce terme métier.
Libérer de l'espace
Pour éviter que des frais ne vous soient facturés, supprimez les ressources que vous avez créées dans ce tutoriel.
Supprimer l'exemple d'ensemble de données
Pour supprimer l'exemple d'ensemble de données BigQuery et toutes ses tables, utilisez la commande suivante. Cette action est irréversible.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
Supprimer les artefacts Knowledge Catalog
Dans la Google Cloud console, accédez à l'onglet Types d'aspects de la page Types de métadonnées de Knowledge Catalog.
Sélectionnez le type d'aspect
data_asset_governance, puis cliquez sur Delete (Supprimer).Dans la Google Cloud console, accédez à la page Glossaires de Knowledge Catalog.
Sélectionnez le terme
Gross Merchandise Value(Valeur brute des marchandises), puis cliquez sur Delete (Supprimer).Sélectionnez la catégorie
Sales Metrics(Métriques de vente), puis cliquez sur Delete (Supprimer).Sélectionnez
Retail Business Glossary, puis cliquez sur Delete (Supprimer).
Étape suivante
- Gérer les glossaires d'entreprise : découvrez comment établir un vocabulaire standardisé pour vos données dans Gérer un glossaire d'entreprise.
- Enrichir le contexte des métadonnées : découvrez comment ajouter un contexte significatif à l'aide d'aspects dans Gérer les aspects et enrichir les métadonnées.
- Automatiser l'association d'aspects : associez des aspects à de nouveaux ensembles de données avec des fonctions Cloud Run ou Cloud Build.
- Gouvernance en tant que code : gérez les schémas dans le contrôle des versions à l'aide du fournisseur Terraform Google Cloud.