À propos de la traçabilité des données.

La traçabilité des données est une carte visuelle qui suit l'ensemble du cycle de vie de vos données. Elle vous indique d'où elles proviennent (l'origine), où elles circulent (les destinations), ainsi que toutes les modifications ou transformations qui se produisent en cours de route.

Vous pouvez consulter cette cartographie complète du parcours de vos données directement dans la consoleGoogle Cloud pour les composants créés dans des produits comme Dataplex Universal Catalog, BigQuery et Vertex AI. Si vous êtes un utilisateur confirmé, vous pouvez également récupérer ces informations à l'aide de l'API Data Lineage.

Pourquoi avez-vous besoin de la traçabilité des données ?

Les entreprises modernes déplacent et modifient constamment de grandes quantités de données. Par exemple, en transformant les achats bruts des clients en rapports, tableaux de bord et modèles de machine learning. Cette complexité pose des problèmes critiques à votre équipe :

Confiance et validation : les utilisateurs de données ont souvent du mal à confirmer que les rapports et les chiffres qu'ils voient sont exacts et proviennent d'une source fiable.
Dépannage : lorsqu'une erreur apparaît dans un rapport final, les équipes de données peuvent avoir du mal à remonter à la source du problème à chaque étape, ce qui peut prendre du temps.
Gestion des modifications : avant de modifier ou de supprimer une donnée (comme une colonne dans un tableau), les équipes doivent connaître chaque rapport ou modèle en aval qui en dépend pour éviter de casser des systèmes critiques.
Conformité : les dirigeants doivent savoir comment les données sensibles (comme les informations financières ou sur les clients) sont utilisées dans l'ensemble de l'organisation pour répondre aux exigences réglementaires.

La traçabilité des données résout ces problèmes en fournissant un parcours clair, visuel et documenté de vos données. Cela vous permet de comprendre rapidement les sources de données, de suivre les erreurs, d'évaluer l'impact des modifications et de garantir la conformité.

Workflow de traçabilité des données

Le workflow de traçabilité des données comprend les étapes suivantes :

Sources de données et ingestion : les informations sur la traçabilité provenant de vos sources de données lancent l'ensemble du processus. Pour en savoir plus, consultez Sources de traçabilité.
- ServicesGoogle Cloud : lorsque l'API Data Lineage est activée, les services compatibles tels que BigQuery et Dataflow signalent automatiquement les événements de traçabilité chaque fois que des données sont déplacées ou transformées.
- Sources personnalisées : pour tous les systèmes qui ne sont pas automatiquement compatibles avec les intégrationsGoogle Cloud , vous pouvez utiliser l'API Data Lineage pour enregistrer manuellement les informations de traçabilité. Nous vous recommandons d'importer des événements mis en forme selon la norme OpenLineage.
Plate-forme de traçabilité : cette plate-forme centrale ingère, modélise et stocke toutes les données de traçabilité. Pour en savoir plus, consultez Modèle et précision des informations de traçabilité.
- API Data Lineage : cette API sert de point d'entrée unique pour toutes les informations de traçabilité entrantes. Elle utilise un modèle de données hiérarchique composé de trois concepts clés : processus, exécution et événement.
- Traitement et stockage : la plate-forme traite les données entrantes et les stocke dans des bases de données fiables et optimisées pour les requêtes.
Expérience utilisateur : vous pouvez interagir avec les informations de traçabilité stockées de deux manières principales :
- Exploration visuelle : dans la console Google Cloud , un service d'interface récupère et affiche les données de traçabilité sous forme de graphique ou de liste interactifs. Cette fonctionnalité est compatible avec Dataplex Universal Catalog, BigQuery et Vertex AI (pour les modèles, les ensembles de données, les vues Feature Store et les groupes de caractéristiques). C'est idéal pour explorer visuellement le parcours de vos données. Pour en savoir plus, consultez Vues de traçabilité dans la console Google Cloud .
- Accès programmatique : à l'aide d'un client API, vous pouvez communiquer directement avec l'API Data Lineage pour automatiser la gestion de la traçabilité. Cela vous permet d'écrire des informations sur la traçabilité à partir de sources personnalisées. Il vous permet également de lire et d'interroger les données de traçabilité stockées pour les utiliser dans d'autres applications ou pour créer des rapports personnalisés.

Sources de traçabilité

Vous pouvez renseigner des informations sur la traçabilité dans Dataplex Universal Catalog de plusieurs manières :

Automatiquement à partir des services Google Cloud intégrés
Manuellement, en utilisant l'API Data Lineage pour les sources personnalisées
En important des événements depuis OpenLineage

Suivi automatisé de la traçabilité des données

Lorsque vous activez l'API Data Lineage, les systèmes Google Cloud qui prennent en charge la traçabilité des données commencent à signaler leurs mouvements de données. Chaque système intégré peut envoyer des informations de traçabilité pour une plage différente de sources de données.

BigQuery

Lorsque vous activez la traçabilité des données dans votre projet BigQuery, Dataplex Universal Catalog enregistre automatiquement les informations de traçabilité pour les éléments suivants :

Nouvelles tables résultant des jobs BigQuery suivants :
- Jobs de copie
- Jobs de chargement qui utilisent un URI Cloud Storage
- Jobs de requête qui utilisent le langage de définition de données (LDD) suivant dans GoogleSQL :
  - CREATE TABLE
  - CREATE TABLE AS SELECT
  - CREATE TABLE COPY
  - CREATE TABLE CLONE
  - CREATE TABLE FUNCTION
  - CREATE TABLE LIKE
  - CREATE VIEW
  - CREATE MATERIALIZED VIEW
Tables existantes lorsque vous utilisez les instructions de langage de manipulation de données (LMD) suivantes dans GoogleSQL :
- SELECT par rapport à l'un des types de tables listés :
- INSERT SELECT
- MERGE
- UPDATE
- DELETE

Les jobs de copie, de requête et de chargement BigQuery sont représentés sous forme de processus.

Pour afficher les détails d'un processus, cliquez sur dans le graphique de traçabilité.

Chaque processus contient l'élément job_id BigQuery dans la liste attributes pour le job BigQuery le plus récent.

Autres services

La traçabilité des données est compatible avec les servicesGoogle Cloud suivants :

Traçabilité des données pour les sources de données personnalisées

Vous pouvez utiliser l'API Data Lineage pour enregistrer manuellement les informations de traçabilité pour toute source de données non compatible avec les systèmes intégrés.

Dataplex Universal Catalog peut créer des graphiques de traçabilité pour les données de traçabilité enregistrées manuellement si vous utilisez un fullyQualifiedName qui correspond aux noms complets des entrées Dataplex Universal Catalog existantes. Si vous souhaitez enregistrer la traçabilité d'une source de données personnalisée, vous devez d'abord créer une entrée personnalisée.

Chaque processus pour une source de données personnalisée peut contenir une clé sql dans la liste des attributs. La valeur de cette clé est utilisée pour mettre en surbrillance le code dans le panneau des détails du graphique de traçabilité des données. L'instruction SQL s'affiche telle qu'elle a été fournie. Il vous incombe de filtrer les informations sensibles. Le nom de la clé sql est sensible à la casse.

OpenLineage

Si vous utilisez déjà OpenLineage pour collecter des informations de traçabilité à partir d'autres sources de données, vous pouvez importer des événements OpenLineage dans Dataplex Universal Catalog et les afficher dans la console Google Cloud . Pour en savoir plus, consultez Intégrer à OpenLineage.

Limites

Voici les limites de traçabilité des données :

Toutes les informations de traçabilité ne sont conservées dans le système que pendant 30 jours.
Les informations de traçabilité sont conservées même après la suppression de la source de données associée. Par exemple, si vous supprimez une table BigQuery, vous pouvez toujours afficher sa traçabilité dans l'API et la console pendant 30 jours maximum.
La traçabilité des données n'enregistre pas automatiquement les informations de traçabilité directe pour les routines BigQuery. Si une routine est utilisée dans une requête, la traçabilité des données enregistre la traçabilité entre les tables que la routine lit en tant que dépendances des tables que la requête écrit.

Limites de la traçabilité au niveau de la colonne

La traçabilité au niveau des colonnes présente les limites supplémentaires suivantes :

La traçabilité au niveau des colonnes n'est pas collectée pour les jobs de chargement BigQuery ni pour les routines.
La traçabilité en amont au niveau des colonnes n'est pas collectée pour les tables externes.
La traçabilité au niveau des colonnes n'est pas collectée si un job crée plus de 1 500 liens au niveau des colonnes. Dans ce cas, seule la lignée au niveau de la table est collectée.
Il n'existe aucune API permettant de créer, lire, mettre à jour, supprimer ou rechercher la traçabilité au niveau des colonnes.
La compatibilité avec les tables partitionnées est limitée, car les colonnes de partitionnement telles que _PARTITIONDATE et _PARTITIONTIME ne sont pas reconnues dans le graphique de traçabilité.
Limites de la console :
- Le balayage de graphique de traçabilité est limité à une profondeur de 20 niveaux et à 10 000 liens dans chaque direction.
- La traçabilité au niveau des colonnes n'est extraite que de la région dans laquelle se trouve la table racine. La vue Graphique n'est pas compatible avec la traçabilité interrégionale.

Tarification

Dataplex Universal Catalog utilise le SKU de traitement premium pour facturer la traçabilité des données. Pour en savoir plus, reportez-vous à la section Tarification.
Pour séparer les frais de traçabilité des données des autres frais associés au SKU de traitement premium Dataplex Universal Catalog, utilisez l'étiquette goog-dataplex-workload-type avec la valeur LINEAGE dans le rapport Cloud Billing.
Si vous appelez l'API Data Lineage Origin sourceType avec une valeur autre que CUSTOM, cela entraîne des coûts supplémentaires.

Étapes suivantes

Découvrez comment suivre la traçabilité des données pour une copie de table BigQuery et des jobs de requête.
Découvrez comment utiliser la traçabilité des données avec les systèmes Google Cloud .
Renseignez-vous sur les vues de traçabilité dans la console Google Cloud
Découvrez l'API Data Lineage.
Pour obtenir des informations administratives, consultez les considérations sur la traçabilité et la page dédiée à la journalisation d'audit de la traçabilité des données.