Établir une gouvernance des données de base

Vous vous êtes probablement déjà demandé ce que signifie un nom de colonne, à qui appartient cet ensemble de données corrompu ou si cette table peut être utilisée. Certains catalogues de données utilisent des tags non structurés pour ajouter ces informations, mais les tags deviennent rapidement obsolètes ou incohérents. Knowledge Catalog (anciennement Dataplex Universal Catalog) évite ce problème en vous permettant d'associer des métadonnées structurées et basées sur un schéma, ainsi que des définitions métier claires directement à vos éléments de données. Cette approche vous aide à créer une gouvernance programmatique à grande échelle.

Ce tutoriel vous explique comment commencer à utiliser la gouvernance des données dans Knowledge Catalog. Conçu pour les ingénieurs de données, les administrateurs de bases de données et les architectes de données, ce tutoriel vous guide à travers les étapes manuelles de l'interface utilisateur pour vous aider à créer un modèle mental solide avant d'automatiser ces workflows. Il clarifie les relations entre les concepts clés de Knowledge Catalog. À la fin de ce tutoriel, vous saurez comment rendre vos données détectables et fiables.

Objectifs

Dans ce tutoriel, vous allez apprendre à effectuer les opérations suivantes :

  • Créer une source fiable unique pour vos termes métier avec un glossaire d'entreprise.
  • Structurer et organiser vos métadonnées avec des types d'aspects.
  • Associer des métadonnées à vos éléments avec des aspects.
  • Utiliser la recherche Knowledge Catalog pour trouver exactement ce dont vous avez besoin à l'aide de ces nouvelles métadonnées structurées.

Avant de commencer

Avant de commencer, procédez comme suit :

Configurer votre environnement

Ce tutoriel utilise Cloud Shell, un environnement de ligne de commande qui s'exécute dans le cloud.

  1. Dans la Google Cloud console, cliquez sur Activer Cloud Shell en haut à droite de la barre d'outils. Le provisionnement et la connexion à l'environnement prennent quelques instants.

  2. Dans Cloud Shell, définissez vos variables PROJECT_ID et LOCATION afin que toutes les commandes futures ciblent votre projet spécifique Google Cloud .

    export PROJECT_ID=$(gcloud config get-value project)
    gcloud config set project $PROJECT_ID
    export LOCATION="us-central1"
    
  3. Activez les services nécessaires Google Cloud .

    gcloud services enable \
      dataplex.googleapis.com \
      bigquery.googleapis.com \
      datacatalog.googleapis.com
    

Créer un ensemble de données BigQuery et préparer des exemples de données

Utilisez le code suivant pour créer un ensemble de données BigQuery et charger des exemples de transactions CSV dans une table. Une fois la table créée, Knowledge Catalog la détecte automatiquement et crée une entrée pour elle dans le catalogue.

Considérez une entrée comme la représentation d'un élément de données dans Knowledge Catalog. Il s'agit d'un enregistrement dans le catalogue auquel vous pouvez associer des métadonnées de gouvernance. Au lieu de gérer directement la table BigQuery, vous gérez son entrée dans Knowledge Catalog.

# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
    --description "Retail data for governance codelab" \
    $PROJECT_ID:retail_data

# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv

# Load the data from the temporary CSV file into a BigQuery table
bq load \
    --source_format=CSV \
    --autodetect \
    retail_data.transactions \
    /tmp/transactions.csv

# (Optional) Clean up the temporary file
rm /tmp/transactions.csv

Exécutez une requête SELECT pour vérifier votre configuration :

bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"

Exemple de résultat :

+----------------+------------------+-------+------------------+
| transaction_id |    user_email    |  gmv  | transaction_date |
+----------------+------------------+-------+------------------+
|           1001 | test@example.com | 150.5 |       2025-08-28 |
|           1002 | user@example.com |  75.0 |       2025-08-28 |
+----------------+------------------+-------+------------------+

Établir des termes communs avec un glossaire d'entreprise

Une bonne gouvernance repose sur des définitions claires. Par exemple, un développeur ne devrait pas avoir à deviner si une colonne nommée gmv signifie "Valeur brute des marchandises" ou si elle inclut les taxes ou les retours. Un glossaire d'entreprise résout ce problème en créant une source fiable unique qui dissocie les définitions métier des détails techniques. Cela garantit que des termes tels que "Valeur brute des marchandises" signifient la même chose pour tous, de l'équipe commerciale aux finances.

Suivez ces étapes pour créer un glossaire et définir votre premier terme :

  1. Dans la Google Cloud console, accédez à la page Glossaires de Knowledge Catalog.

    Accéder à Glossaires

  2. Cliquez sur Créer un glossaire d'entreprise.

  3. Saisissez les informations suivantes :

    • Display name (Nom à afficher) : Retail Business Glossary
    • Adresse: us-central1 (Iowa)
  4. Cliquez sur Créer.

  5. Cliquez sur Créer une catégorie.

  6. Nommez la catégorie Sales Metrics, puis cliquez sur Créer.

  7. Sélectionnez la catégorie Sales Metrics (Métriques de vente), puis cliquez sur Ajouter un terme.

  8. Nommez le terme Gross Merchandise Value (Valeur brute des marchandises), puis cliquez sur Créer.

  9. Cliquez sur le terme Gross Merchandise Value (Valeur brute des marchandises) pour ouvrir sa page d'informations.

  10. Cliquez sur Ajouter à côté de Vue d'ensemble. Saisissez les informations suivantes : The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth. (La valeur totale des marchandises vendues sur une période donnée avant déduction des frais ou dépenses. Il s'agit d'un indicateur clé de la croissance du commerce électronique.)

  11. Cliquez sur Enregistrer.

Vous avez créé un terme de glossaire que vous pouvez associer à des éléments de données dans toute votre organisation.

Définir des métadonnées techniques avec un type d'aspect

Si vous devez savoir qui est propriétaire d'un élément de données particulier, les tags clé/valeur ne suffisent pas. Vous ne voulez pas qu'une table soit taguée owner:bob et une autre contact:alice@example.com. Vous souhaitez un schéma structuré qui exige que les informations sur le propriétaire soient au format d'adresse e-mail valide.

Pour répondre à ce besoin, Knowledge Catalog est compatible avec les types d'aspects. Un type d'aspect est comme un plan pour vos métadonnées qui vous permet de définir des règles claires et des champs obligatoires. Cela garantit que toutes les métadonnées que vous ajouterez ultérieurement resteront organisées.

  1. Dans la Google Cloud console, accédez à l'onglet Types d'aspects de la page Types de métadonnées de Knowledge Catalog.

    Accéder à Types d'aspects

  2. Dans l'onglet Custom (Personnalisé), cliquez sur Create (Créer).

  3. Saisissez les informations suivantes :

    • Display name (Nom à afficher) : Data Asset Governance
    • Adresse: us-central1 (Iowa)
  4. Dans la section Template (Modèle), cliquez sur Add Field (Ajouter un champ) pour créer les trois champs suivants :

    • Champ 1 :

      • Display name (Nom à afficher) : Data Steward
      • Type: Text
      • Is Required (Obligatoire) : cochez la case.
      • Type de texte : Plain text
    • Champ 2 (cliquez sur Add field (Ajouter un champ)) :

      • Display name (Nom à afficher) : Data Sensitivity
      • Type: Enum
      • Is Required (Obligatoire) : laissez le champ facultatif.
      • Values (Valeurs) : ajoutez Public, Internal et Confidential.
    • Champ 3 (cliquez sur Add a field (Ajouter un champ)) :

      • Display name (Nom à afficher) : Last Review Date
      • Is Required (Obligatoire) : laissez le champ facultatif.
      • Type: Date and time
  5. Cliquez sur Enregistrer.

Vous disposez maintenant d'un type d'aspect pour les champs de métadonnées liés à la gouvernance, tels que le responsable des données, le niveau de sensibilité et la date de révision. Dans la section suivante, vous appliquerez ce schéma à une entrée de table en associant un aspect avec des valeurs spécifiques pour ces champs.

Enrichir une entrée avec des métadonnées de gouvernance

Les noms de colonnes sont souvent abrégés ou ambigus. Associer une colonne à un terme de votre glossaire d'entreprise fournit une définition claire et cohérente. Dans cette étape, vous enrichissez l'entrée de la table retail_data.transactions en associant le terme Gross Merchandise Value (Valeur brute des marchandises) à une colonne nommée gmv et en utilisant votre type d'aspect pour associer un aspect à l'entrée de la table.

Pour clarifier la signification de la colonne gmv dans retail_data.transactions, associez-la à votre terme Gross Merchandise Value (Valeur brute des marchandises).

  1. Dans la Google Cloud console, accédez à la page Search (Rechercher) de Knowledge Catalog.

    Accéder à la recherche

  2. Cliquez sur Filters (Filtres) pour ouvrir le panneau Filters (Filtres).

  3. Pour Scope (Champ d'application), sélectionnez Current Project (Projet actuel).

  4. Recherchez retail_data.transactions, puis cliquez sur la table de transactions renvoyée.

  5. Cliquez sur l'onglet Schema (Schéma).

  6. Cochez la case à côté de la colonne gmv, puis cliquez sur Add business term (Ajouter un terme métier).

  7. Sélectionnez Gross Merchandise Value (Valeur brute des marchandises).

Associer un aspect à l'entrée de la table

En plus d'associer des termes métier à des colonnes, vous pouvez associer un aspect à une entrée de table pour capturer des métadonnées de gouvernance au niveau de la table, telles que la propriété et la sensibilité des données.

Un aspect est une instance d'un type d'aspect, contenant des valeurs spécifiques pour les champs de métadonnées. Lorsque vous associez un aspect à une entrée, Knowledge Catalog vérifie les informations que vous fournissez par rapport au schéma défini dans le type d'aspect pour garantir la cohérence.

Pour définir la propriété et la sensibilité de la table retail_data.transactions, associez l'aspect Data Asset Governance :

  1. Dans l'onglet Details (Détails) de la page d'entrée retail_data.transactions, cliquez sur Add (Ajouter) à côté de Optional aspects (Aspects facultatifs).
  2. Sélectionnez Data Asset Governance dans la liste.
  3. Saisissez des valeurs dans les champs :

    • Data Steward (Responsable des données) : finance-team@example.com
    • Data Sensitivity (Sensibilité des données) : sélectionnez Internal (Interne).
    • Last Review Date (Date de la dernière révision) : sélectionnez la date du jour.
  4. Cliquez sur Enregistrer.

Vous avez maintenant établi une base solide pour la gouvernance des données dans Knowledge Catalog.

Rechercher des entrées à l'aide de métadonnées enrichies

Vous avez enrichi l'entrée retail_data.transactions en associant une colonne à un terme métier et en associant un aspect. Vous pouvez maintenant utiliser la recherche Knowledge Catalog pour trouver des entrées en fonction de ces contextes métier. Par exemple, vous pouvez trouver tous les éléments avec un niveau de sensibilité spécifique ou rechercher votre terme de glossaire pour découvrir les tables sous-jacentes.

  1. Dans la Google Cloud console, accédez à la page Search (Rechercher) de Knowledge Catalog.

    Accéder à la recherche

  2. Cliquez sur Filters (Filtres) pour ouvrir le panneau Filters (Filtres).

  3. Pour Scope (Champ d'application), sélectionnez Current Project (Projet actuel).

  4. Dans la barre de recherche, saisissez Find tables where the Data Asset Governance aspect has Internal sensitivity. (Rechercher les tables où l'aspect "Gouvernance des éléments de données" a une sensibilité interne.)

  5. Votre table retail_data.transactions devrait s'afficher dans la liste des résultats.

  6. Effacez le contenu de la barre de recherche et saisissez Find tables with the Gross Merchandise Value term attached. (Rechercher les tables auxquelles le terme "Valeur brute des marchandises" est associé.)

  7. La table retail_data.transactions devrait à nouveau s'afficher dans les résultats, car sa colonne gmv est directement associée à ce terme métier.

Libérer de l'espace

Pour éviter que des frais ne vous soient facturés, supprimez les ressources que vous avez créées dans ce tutoriel.

Supprimer l'exemple d'ensemble de données

Pour supprimer l'exemple d'ensemble de données BigQuery et toutes ses tables, utilisez la commande suivante. Cette action est irréversible.

# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)

# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data

Supprimer les artefacts Knowledge Catalog

  1. Dans la Google Cloud console, accédez à l'onglet Types d'aspects de la page Types de métadonnées de Knowledge Catalog.

    Accéder à Types d'aspects

  2. Sélectionnez le type d'aspect data_asset_governance, puis cliquez sur Delete (Supprimer).

  3. Dans la Google Cloud console, accédez à la page Glossaires de Knowledge Catalog.

    Accéder à Glossaires

  4. Sélectionnez le terme Gross Merchandise Value (Valeur brute des marchandises), puis cliquez sur Delete (Supprimer).

  5. Sélectionnez la catégorie Sales Metrics (Métriques de vente), puis cliquez sur Delete (Supprimer).

  6. Sélectionnez Retail Business Glossary, puis cliquez sur Delete (Supprimer).

Étape suivante