Suivre la traçabilité des données pour une table BigQuery

Ce document explique comment suivre la traçabilité des données dans les tables BigQuery. La traçabilité des données est le processus qui consiste à suivre l'origine des données, leur transformation et leur déplacement au fil du temps. Comprendre la traçabilité des données est essentiel pour garantir la conformité, résoudre les problèmes liés aux données et effectuer une analyse des causes profondes.

Ce guide de démarrage rapide vous explique comment faire vos premiers pas avec la traçabilité des données pour les tables BigQuery :

  1. Copiez deux tables à partir d'un ensemble de données new_york_taxi_trips accessible au public.

  2. Combinez le nombre total de courses en taxi des deux tables dans une nouvelle table.

  3. Affichez un graphique de visualisation de traçabilité pour les trois opérations.

Avant de commencer

Configurez votre projet :

  1. Connectez-vous à votre Google Cloud compte. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $de crédits sans frais pour exécuter, tester et déployer des charges de travail.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  4. Verify that billing is enabled for your Google Cloud project.

  5. Enable the Dataplex, BigQuery, and Data Lineage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  8. Verify that billing is enabled for your Google Cloud project.

  9. Enable the Dataplex, BigQuery, and Data Lineage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Rôles requis

Pour obtenir les autorisations nécessaires pour afficher les graphiques de visualisation de la traçabilité, demandez à votre administrateur de vous accorder les rôles IAM suivants :

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.

Ajouter un ensemble de données public à votre projet

  1. Dans la console Google Cloud , accédez à la page "BigQuery".

    Accéder à BigQuery

  2. Dans le volet de gauche, cliquez sur Explorateur:

    Bouton du volet Explorateur mis en évidence.

    Si le volet de gauche n'apparaît pas, cliquez sur Développer le volet de gauche pour l'ouvrir.

  3. Dans le volet Explorateur, cliquez sur Ajouter des données.

  4. Dans le volet Ajouter des données, sélectionnez Ensembles de données publics.

  5. Dans le volet Marketplace , recherchez NYC TLC Trips, puis cliquez sur le résultat NYC TLC Trips.

  6. Cliquez sur Afficher l'ensemble de données.

Le projet de l'ensemble de données public est ainsi ajouté en tant que référence que vous pouvez afficher dans le volet Explorateur. Le volet d'informations affiche les informations sur l'ensemble de données, y compris l'ID de l'ensemble de données, l'emplacement des données et la date de la dernière modification.

Créer un ensemble de données dans votre projet

  1. Dans le volet de gauche, cliquez sur Explorateur:

    Bouton du volet Explorateur mis en évidence.

  2. Dans le volet Explorateur, sélectionnez le projet dans lequel vous souhaitez créer l'ensemble de données.

  3. Cliquez sur Actions, puis sur Créer un ensemble de données.

  4. Sur la page Créer un ensemble de données, saisissez data_lineage_demo dans le champ ID de l'ensemble de données. Conservez les valeurs par défaut dans les autres champs.

  5. Cliquez sur Créer un ensemble de données.

  6. Dans le volet Explorateur, cliquez sur Ensembles de données, puis sur le data_lineage_demo qui vient d'être ajouté.

Le volet Détails affiche les informations sur l'ensemble de données.

Copier deux tables accessibles au public dans votre ensemble de données

  1. Ouvrez un éditeur de requête : dans le volet Détails, à côté de l'onglet appelé data_lineage_demo, cliquez sur Requête SQL. Cette étape crée un onglet nommé Untitled.

  2. Dans l'éditeur de requête, copiez la première table en saisissant la requête suivante. Remplacez PROJECT_ID par l'ID de votre projet.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Cliquez sur  Exécuter. Cette étape crée la première table, appelée nyc_green_trips_2021.

  4. Dans le volet Résultats de la requête, cliquez sur Accéder à la table. Cette étape affiche le contenu de la première table.

  5. Dans l'éditeur de requête, copiez la deuxième table en remplaçant la requête précédente par la requête suivante. Remplacez PROJECT_ID par l'ID de votre projet.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Cliquez sur  Exécuter. Cette étape crée la deuxième table, appelée nyc_green_trips_2022.

  7. Dans le volet Résultats de la requête, cliquez sur Accéder à la table. Cette étape affiche le contenu de la deuxième table.

Regrouper des données dans une nouvelle table

  1. Dans l'éditeur de requête, saisissez la requête suivante. Remplacez PROJECT_ID par l'ID de votre projet.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Cliquez sur  Exécuter. Cette étape crée une table combinée, appelée total_green_trips_22_21.

  3. Dans le volet Résultats de la requête, cliquez sur Accéder à la table. Cette étape affiche la table combinée.

Afficher le graphique de traçabilité dans Knowledge Catalog

  1. Dans la Google Cloud console, accédez à la page Rechercher de Knowledge Catalog.

    Accéder à la recherche

  2. Si votre plate-forme de recherche est définie sur Data Catalog, dans le Choisir une plate-forme de recherche menu, sélectionnez Knowledge Catalog.

  3. Dans le champ Rechercher , saisissez total_green_trips_22_21, puis cliquez sur Rechercher.

  4. Dans la liste des résultats, cliquez sur total_green_trips_22_21. Cette étape affiche l'onglet Détails de la table BigQuery.

  5. Cliquez sur l'onglet Traçabilité.

Table "total_green_trips_22_21" avec le panneau "Détails" ancré en bas.
Figure 1. Traçabilité des données avec les détails des nœuds

Dans le graphique de traçabilité, chaque nœud rectangulaire représente une table (originale, copiée ou combinée). Vous pouvez procéder comme suit :

  • Pour afficher ou masquer l'origine d'une table, cliquez sur + (Développer) ou - (Réduire).

  • Pour afficher des informations sur une table, cliquez sur un nœud. Cette étape affiche le volet Détails du nœud.

  • Pour afficher des informations sur un processus, cliquez sur afficher les détails du processus de traçabilité. Cette étape affiche le volet Détails du processus indiquant le job qui a transformé une table source en table cible.

Table intermédiaire nyc_green_trips_2021 avec le panneau "Détails" ancré en bas.
Figure 2. Traçabilité des données avec les détails d'un processus

Effectuer un nettoyage

Pour éviter que les ressources utilisées dans cette démonstration soient facturées sur votre Google Cloud compte pour les ressources utilisées sur cette page, procédez comme suit :

Supprimer le projet

  1. Dans la Google Cloud console, accédez à la page Gérer les ressources.

    Accéder à la page "Gérer les ressources"

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez Arrêter pour supprimer le projet.

Supprimer l'ensemble de données

  1. Dans la console Google Cloud , accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans le volet de gauche, cliquez sur Explorateur:

    Bouton du volet Explorateur mis en évidence.

  3. Dans le volet Explorateur, recherchez l'ensemble de données data_lineage_demo que vous avez créé.

  4. Cliquez sur l'ensemble de données, puis sur Supprimer.

  5. Confirmez la suppression.

Étapes suivantes