Lorsque vous travaillez avec des données, vous vous êtes probablement posé des questions telles que "Que signifie ce nom de colonne ?", "À qui appartient cet ensemble de données corrompu ?" ou "L'utilisation de cette table est-elle approuvée ?". Les tags de métadonnées tentent de répondre à ces questions, mais ils deviennent rapidement obsolètes ou incohérents. Knowledge Catalog (anciennement Dataplex Universal Catalog) résout ce problème en vous permettant d'associer des métadonnées structurées et des définitions métier claires directement aux éléments de données. Fournir un contexte de données clair permet d'ancrer les agents d'IA et de créer une base de confiance pour chaque utilisateur qui interagit avec les données.
Ce tutoriel vous explique comment établir un contexte de données dans Knowledge Catalog. Conçu pour les utilisateurs tels que les responsables des données et les analystes métier, ce tutoriel vous guide à travers les étapes basées sur l'interface utilisateur pour créer des termes et un contexte métier standards avant d'automatiser ces workflows. Le tutoriel clarifie les relations entre les concepts clés de Knowledge Catalog. À la fin, vous saurez comment rendre vos données détectables et fiables.
Objectifs
Dans ce tutoriel, vous allez apprendre à effectuer les opérations suivantes :
- Créer une source unique de vérité pour les termes métier avec un glossaire d'entreprise.
- Structurer et organiser les métadonnées avec des types d'aspects.
- Associer des métadonnées à des éléments de données avec des aspects.
- Utiliser la recherche Knowledge Catalog pour trouver exactement ce dont vous avez besoin à l'aide de ces nouvelles métadonnées structurées.
Avant de commencer
Avant de commencer, procédez comme suit :
- Sélectionnez un Google Cloud projet pour ce tutoriel.
- Vérifiez que la facturation est activée pour votre projet.
Configurer votre environnement
Ce tutoriel utilise Cloud Shell, un environnement de ligne de commande qui s'exécute dans le cloud.
Dans la Google Cloud console, cliquez sur Activer Cloud Shell en haut à droite de la barre d'outils. Le provisionnement et la connexion à l'environnement prennent quelques instants.
Dans Cloud Shell, définissez vos variables
PROJECT_IDetLOCATIONafin que toutes les commandes futures ciblent votre projet spécifique Google Cloud .export PROJECT_ID=$(gcloud config get-value project) gcloud config set project $PROJECT_ID export LOCATION="us-central1"Activez les services nécessaires Google Cloud .
gcloud services enable \ dataplex.googleapis.com \ bigquery.googleapis.com \ datacatalog.googleapis.com
Créer un ensemble de données BigQuery et préparer des exemples de données
Utilisez le code suivant pour créer un ensemble de données BigQuery et charger des exemples de transactions CSV dans une table. Une fois la table créée, Knowledge Catalog la détecte et crée une entrée pour elle dans le catalogue.
Considérez une entrée comme la représentation d'un élément de données par Knowledge Catalog. Il s'agit d'un enregistrement dans le catalogue auquel vous pouvez associer des métadonnées. Au lieu d'ajouter un contexte à la table BigQuery (ou de l'enrichir) directement, vous l'ajoutez à son entrée dans Knowledge Catalog.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Sample retail data for foundational data context tutorial" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into a BigQuery table
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
Exécutez une requête SELECT pour vérifier votre configuration :
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
Exemple de résultat :
+----------------+------------------+-------+------------------+
| transaction_id | user_email | gmv | transaction_date |
+----------------+------------------+-------+------------------+
| 1001 | test@example.com | 150.5 | 2025-08-28 |
| 1002 | user@example.com | 75.0 | 2025-08-28 |
+----------------+------------------+-------+------------------+
Établir des termes communs avec un glossaire d'entreprise
Un bon contexte de données repose sur des définitions claires. Par exemple, un développeur ne devrait pas avoir à deviner si une colonne nommée gmv signifie "Valeur brute des marchandises" ou si elle inclut les taxes et les retours. Un glossaire d'entreprise crée une source unique de vérité pour ces définitions dans l'ensemble de votre organisation. Lorsque des collaborateurs ou des agents d'IA analysent vos données, ils héritent de ce contexte métier précis. Les définitions partagées alignent les métriques entre les équipes telles que la finance, les ventes et les opérations, et aident les agents d'IA à éviter les hallucinations.
Pour créer un glossaire et définir votre premier terme, procédez comme suit :
Dans la Google Cloud console, accédez à la page Glossaires de Knowledge Catalog.
Cliquez sur Créer un glossaire d'entreprise.
Saisissez les informations suivantes :
- Display name (Nom à afficher) :
Retail Business Glossary - Adresse:
us-central1 (Iowa)
- Display name (Nom à afficher) :
Cliquez sur Créer.
Cliquez sur Créer une catégorie.
Nommez la catégorie
Sales Metrics, puis cliquez sur Créer.Sélectionnez la catégorie Sales Metrics (Métriques de vente), puis cliquez sur Ajouter un terme.
Nommez le terme
Gross Merchandise Value(Valeur brute des marchandises), puis cliquez sur Créer.Cliquez sur le terme Gross Merchandise Value (Valeur brute des marchandises) pour ouvrir sa page d'informations.
Cliquez sur Ajouter à côté de Vue d'ensemble. Saisissez les informations suivantes :
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.(La valeur totale des marchandises vendues sur une période donnée avant déduction des frais ou dépenses. Il s'agit d'un indicateur clé de la croissance du commerce électronique.)Cliquez sur Enregistrer.
Vous avez créé un terme de glossaire que vous pouvez associer à des entrées de données dans l'ensemble de votre organisation.
Définir des métadonnées techniques avec un type d'aspect
Lorsque vous utilisez des tags de métadonnées non structurés, vous obtenez souvent des entrées de catalogue incohérentes. Par exemple, une table peut être taguée owner:bob et une autre steward:alice@example.com. Pour organiser vos métadonnées à grande échelle, vous avez besoin d'un schéma cohérent.
C'est là qu'interviennent les types d'aspects. Un type d'aspect est un plan de métadonnées qui vous permet de définir des règles claires et des champs obligatoires. Exiger des champs standards tels que des adresses e-mail valides pour les responsables des données permet aux scripts en aval de valider et de protéger automatiquement vos métadonnées.
Pour créer un type d'aspect, procédez comme suit :
Dans la Google Cloud console, accédez à l'onglet Types d'aspects de la page Types de métadonnées de Knowledge Catalog.
Dans l'onglet Custom (Personnalisé), cliquez sur Create (Créer).
Saisissez les informations suivantes :
- Display name (Nom à afficher) :
Data Asset Context - Adresse:
us-central1 (Iowa)
- Display name (Nom à afficher) :
Dans la section Template (Modèle), cliquez sur Add field (Ajouter un champ) pour créer les trois champs suivants :
Champ 1 :
- Display name (Nom à afficher) :
Data Steward - Type:
Text - Is Required (Obligatoire) : cochez la case.
- Type de texte :
Plain text
- Display name (Nom à afficher) :
Champ 2 (cliquez sur Add field (Ajouter un champ)) :
- Display name (Nom à afficher) :
Data Sensitivity - Type:
Enum - Is Required (Obligatoire) : laissez le champ facultatif.
- Values (Valeurs) : ajoutez
Public,InternaletConfidential.
- Display name (Nom à afficher) :
Champ 3 (cliquez sur Add a field (Ajouter un champ)) :
- Display name (Nom à afficher) :
Last Review Date - Is Required (Obligatoire) : laissez le champ facultatif.
- Type:
Date and time
- Display name (Nom à afficher) :
Cliquez sur Enregistrer.
Vous disposez désormais d'un type d'aspect pour les champs de métadonnées liés à la gouvernance des données, tels que le responsable des données, le niveau de sensibilité et la date de révision. Dans la section suivante, vous appliquerez ce schéma à une entrée de table en associant un aspect avec des valeurs spécifiques pour ces champs.
Enrichir une entrée avec un contexte métier et technique
Les noms de colonnes sont souvent abrégés ou ambigus. Associer une colonne à un terme de votre glossaire d'entreprise fournit une définition claire et cohérente. Dans cette étape, vous allez enrichir l'entrée de la table retail_data.transactions en associant le terme Gross Merchandise Value (Valeur brute des marchandises) à une colonne nommée gmv et en associant un aspect à l'entrée de la table à l'aide de votre type d'aspect.
Associer une colonne à un terme métier
Pour clarifier la signification de la colonne gmv dans retail_data.transactions, associez-la à votre terme Gross Merchandise Value (Valeur brute des marchandises).
Dans la Google Cloud console, accédez à la page Rechercher de Knowledge Catalog.
Cliquez sur Filters (Filtres) pour ouvrir le panneau Filters (Filtres).
Pour Scope (Champ d'application), sélectionnez Current Project (Projet actuel).
Recherchez
retail_data.transactions, puis cliquez sur la table des transactions renvoyée.Cliquez sur l'onglet Schema (Schéma).
Cochez la case à côté de la colonne
gmv, puis cliquez sur Add business term (Ajouter un terme métier).Sélectionnez
Gross Merchandise Value(Valeur brute des marchandises).
Associer un aspect à l'entrée de la table
En plus d'associer des termes métier à des colonnes, vous pouvez associer un aspect à une entrée de table pour capturer des métadonnées au niveau de la table, telles que la propriété et la sensibilité des données.
Un aspect est une instance d'un type d'aspect, avec des valeurs spécifiques pour les champs de métadonnées. Lorsque vous associez un aspect à une entrée, Knowledge Catalog vérifie les informations que vous fournissez par rapport au schéma défini dans le type d'aspect pour garantir la cohérence.
Pour définir la propriété et la sensibilité de la table retail_data.transactions, associez l'aspect Data Asset Context :
- Dans l'onglet Details (Détails) de la page d'entrée
retail_data.transactions, cliquez sur Add (Ajouter) à côté de Optional aspects (Aspects facultatifs). - Sélectionnez
Data Asset Contextdans la liste. Saisissez des valeurs dans les champs suivants :
- Data Steward (Responsable des données) :
finance-team@example.com - Data Sensitivity (Sensibilité des données) : sélectionnez Internal (Interne).
- Last Review Date (Date de la dernière révision) : sélectionnez la date du jour.
- Data Steward (Responsable des données) :
Cliquez sur Enregistrer.
En enrichissant vos exemples de données de transaction de vente au détail, vous avez créé une base solide de contexte de données dans Knowledge Catalog.
Rechercher des entrées à l'aide de métadonnées enrichies
Vous pouvez désormais utiliser la recherche Knowledge Catalog pour trouver des entrées en fonction du contexte métier que vous avez configuré. Par exemple, vous pouvez trouver tous les éléments avec un niveau de sensibilité spécifique ou rechercher votre terme de glossaire pour découvrir les tables sous-jacentes.
Dans la Google Cloud console, accédez à la page Rechercher de Knowledge Catalog.
Cliquez sur Filters (Filtres) pour ouvrir le panneau Filters (Filtres).
Pour Scope (Champ d'application), sélectionnez Current Project (Projet actuel).
Dans la barre de recherche, saisissez
Find tables where the Data Asset Context aspect has Internal sensitivity.(Rechercher les tables où l'aspect "Contexte de l'élément de données" a une sensibilité interne.)Votre table
retail_data.transactionsdevrait s'afficher dans la liste des résultats.Effacez le contenu de la barre de recherche et saisissez
Find tables with the Gross Merchandise Value term attached.(Rechercher les tables auxquelles le terme "Valeur brute des marchandises" est associé.)La table
retail_data.transactionsdevrait à nouveau s'afficher dans les résultats, car sa colonnegmvest directement associée à ce terme métier.
Lorsque vous connectez un agent d'IA à Knowledge Catalog, il hérite automatiquement de ces métadonnées enrichies. Par exemple, lorsque vous demandez à un agent de récupérer les métriques de vente internes, il lit l'aspect "Sensibilité des données" (que vous avez défini sur "Interne") et le terme de glossaire associé "Valeur brute des marchandises". Ce contexte partagé aide l'agent à vérifier ses sources de données, à respecter les règles d'accès et à éviter les hallucinations.
Libérer de l'espace
Pour éviter que des frais ne vous soient facturés, supprimez les ressources que vous avez créées dans ce tutoriel.
Supprimer l'exemple d'ensemble de données
Pour supprimer l'exemple d'ensemble de données BigQuery et toutes ses tables, utilisez la commande suivante. Cette action est irréversible.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
Supprimer les artefacts Knowledge Catalog
Dans la Google Cloud console, accédez à l'onglet Types d'aspects de la page Types de métadonnées de Knowledge Catalog.
Sélectionnez le type d'aspect
Data Asset Context, puis cliquez sur Delete (Supprimer).Dans la Google Cloud console, accédez à la page Glossaires de Knowledge Catalog.
Sélectionnez le terme
Gross Merchandise Value, puis cliquez sur Delete (Supprimer).Sélectionnez la catégorie
Sales Metrics, puis cliquez sur Delete (Supprimer).Sélectionnez
Retail Business Glossary, puis cliquez sur Delete (Supprimer).
Étape suivante
Pour en savoir plus sur la curation de catalogues et la création d'agents avec Knowledge Catalog, consultez les ressources suivantes :
- Gérer les aspects et enrichir les métadonnées : découvrez comment définir des schémas personnalisés et associer des métadonnées structurées dans Gérer les aspects et enrichir les métadonnées.
- Gérer les glossaires d'entreprise : découvrez comment établir un vocabulaire standardisé pour votre organisation dans Gérer un glossaire d'entreprise.
- Gouverner avec Terraform : découvrez comment provisionner des types d'aspects et des glossaires personnalisés à l'aide de Terraform.
- Utiliser des termes de glossaire à grande échelle : effectuez un enrichissement groupé des métadonnées à l'aide de fichiers JSON dans À propos de l'importation et de l'exportation de glossaires et de liens d'entrée.
- Enrichir les métadonnées avec des agents : créez un agent d'IA pour extraire le contexte et enrichir vos éléments de données dans Créer un agent pour enrichir vos métadonnées.
- Découvrir d'autres cas d'utilisation : découvrez d'autres workflows et scénarios pratiques dans Cas d'utilisation.