La traçabilité des données affiche les relations entre les ressources de votre projet et les processus qui les ont créées.
Vous pouvez afficher les détails de la traçabilité des données dans la console Google Cloud ou les récupérer à l'aide de l'API Data Lineage.
Selon le volume de données traitées, il faut un certain temps pour que la traçabilité des données affiche un graphique. La plupart des tâches prennent trois heures, mais certaines peuvent prendre jusqu'à 24 heures.
La provenance est capturée dans tous les projets. Lorsque vous consultez la lignée générée à partir de plusieurs projets, vous pouvez afficher les informations agrégées sur la lignée dans l'un des projets concernés.
Rôles et autorisations
Pour afficher la lignée des données, vous devez disposer d'autorisations Identity and Access Management (IAM) spécifiques. Les informations sur la lignée sont capturées dans plusieurs projets. Vous devez donc disposer d'autorisations dans plusieurs projets.
Lorsque vous consultez la traçabilité dans Dataplex Universal Catalog, BigQuery ou Vertex AI, vous avez besoin d'autorisations pour afficher les informations de traçabilité dans le projet dans lequel vous les consultez.
Lorsque vous consultez l'historique enregistré dans d'autres projets : vous devez disposer des autorisations nécessaires pour afficher les informations d'historique dans les projets où il a été enregistré.
Pour afficher la lignée des données, vous devez disposer des rôles ou autorisations suivants. Attribuez ces rôles au compte principal (par exemple, l'utilisateur ou le compte de service) sur les ressources concernées (par exemple, les projets ou les tables BigQuery).
Lecteur de la traçabilité des données (
roles/datalineage.viewer
) : accorde l'autorisation d'afficher la traçabilité dans la console Google Cloud et d'utiliser l'API Data Lineage. Vous devez appliquer ce rôle aux projets dans lesquels la lignée est enregistrée et à ceux dans lesquels elle est consultée. Pour en savoir plus, consultez Types de projets.Lecteur Dataplex Universal Catalog (
roles/dataplex.catalogViewer
) : accorde l'autorisation d'afficher les métadonnées des composants catalogués dans Dataplex Universal Catalog. Accordez ce rôle aux projets dans lesquels les entrées de catalogue sont stockées pour permettre aux utilisateurs de consulter les détails des entrées dans le graphique de lignée. Vous pouvez également accorder un rôle de lecteur sur le système source. Pour en savoir plus, consultez Rechercher des éléments de données avec Dataplex Universal Catalog.Autres autorisations BigQuery :
- Pour afficher les détails des composants BigQuery dans le graphique de traçabilité, tels que les définitions de tables ou les requêtes de vues, attribuez le rôle Lecteur de données BigQuery (
roles/bigquery.dataViewer
). - Pour afficher la requête SQL d'un job BigQuery qui a généré la lignée, accordez l'autorisation
bigquery.jobs.get
. Cette autorisation est incluse dans des rôles tels que Administrateur BigQuery (roles/bigquery.admin
) et Lecteur de ressources BigQuery (roles/bigquery.resourceViewer
).
- Pour afficher les détails des composants BigQuery dans le graphique de traçabilité, tels que les définitions de tables ou les requêtes de vues, attribuez le rôle Lecteur de données BigQuery (
La traçabilité des données suit automatiquement les informations de traçabilité lorsque vous activez l'API Data Lineage. Vous n'avez besoin d'aucun rôle d'administrateur ni d'éditeur pour capturer la lignée de vos composants de données.
Pour en savoir plus sur l'attribution de rôles, consultez Gérer les accès. Vous pouvez attribuer un rôle à un niveau supérieur (dossier ou organisation). Pour en savoir plus, consultez Attribuer ou révoquer un rôle unique.
Types de vues de traçabilité des données
Vous pouvez afficher les informations sur la lignée sous forme de graphique ou de liste. Le graphique de traçabilité affiche la traçabilité au niveau des tables par défaut. Pour les jobs BigQuery, vous pouvez afficher la traçabilité au niveau des colonnes dans les vues Graphique et Liste.
Les types de vue suivants sont disponibles :
Vue Graphique : affiche la traçabilité sous forme de graphique interactif, ce qui vous permet d'explorer les relations entre les composants et les colonnes de données en développant les nœuds.
Vue Liste : affiche la traçabilité sous forme de tableau, en fournissant des représentations simplifiées et détaillées de la traçabilité au niveau des tables et des colonnes. Vous pouvez personnaliser les colonnes et exporter les données de lignée à partir de cette vue.
Les éléments clés du graphique sont décrits comme suit :
Nœuds : représentent les entités de données. Dans la vue au niveau de la table, un nœud affiche le nom de la table et ses colonnes. Dans la vue au niveau des colonnes, chaque nœud représente une table spécifique et ses colonnes ayant une traçabilité.
Arêtes : lignes qui relient les nœuds et représentent les processus qui se produisent entre eux. Les arêtes peuvent comporter des icônes ou des libellés pour fournir plus d'informations sur la transformation :
- Icons : dans la vue au niveau du tableau, des icônes s'affichent sur les bords pour représenter le processus de transformation. Lorsque vous explorez manuellement le graphique, les icônes sur les arêtes représentent le système source du processus (par exemple, BigQuery ou Vertex AI). Si plusieurs processus sont impliqués, une icône "Plusieurs processus" s'affiche. Si le système source du processus est inconnu, une icône en forme de roue dentée est utilisée. Lorsque vous appliquez des filtres, une icône en forme de roue dentée est utilisée pour tous les processus.
- Libellés : dans la vue au niveau des colonnes, les arêtes sont libellées pour décrire le type de dépendance entre les colonnes, comme
Exact copy
ouOther
.
Activer la traçabilité des données
Activez la traçabilité des données pour commencer à suivre automatiquement les informations de traçabilité pour les systèmes compatibles. Vous devez activer l'API Data Lineage à la fois dans le projet où vous consultez la traçabilité et dans les projets où elle est enregistrée. Pour en savoir plus, consultez Types de projets.
- Pour capturer des informations sur la lignée, procédez comme suit :
-
Dans la console Google Cloud , sur la page Sélecteur de projet, sélectionnez le projet dans lequel vous souhaitez enregistrer la provenance.
Activez l'API Data Lineage.
- Répétez les étapes précédentes pour chaque projet dans lequel vous souhaitez enregistrer la provenance.
-
Dans le projet dans lequel vous consultez la traçabilité, activez l'API Data Lineage et l'API Dataplex.
Afficher la traçabilité dans Dataplex Universal Catalog
Vous pouvez afficher des informations sur la traçabilité des données dans l'interface Web Dataplex Universal Catalog.
Pour afficher la lignée, procédez comme suit :
Dans la console Google Cloud , accédez à la page Rechercher de Dataplex Universal Catalog.
Sélectionnez Dataplex Universal Catalog comme mode de recherche.
Recherchez l'entrée que vous souhaitez afficher, puis cliquez dessus. Pour en savoir plus, consultez Rechercher des ressources dans Dataplex Universal Catalog.
Cliquez sur l'onglet Traçabilité.
La vue Graphique par défaut s'ouvre et affiche la traçabilité au niveau du tableau dans les systèmes et les régions. Pour en savoir plus, consultez Affichage du graphique de traçabilité.
Pour explorer manuellement le graphique de lignée, cliquez sur Développer à côté d'un nœud pour charger cinq nœuds supplémentaires à la fois.
Pour en savoir plus, consultez Explorer manuellement le graphique de lignée.
Cliquez sur un nœud dans la vue Graphique.
Le panneau Détails s'ouvre et affiche des informations sur le composant, comme son nom complet et son type. Pour en savoir plus, consultez Détails du nœud.
Dans la vue Graphique, cliquez sur un bord comportant une icône de processus.
Le panneau Requête s'ouvre. Pour en savoir plus, consultez Inspecter la logique de transformation et Audit et historique des exécutions.
Pour inspecter la logique de transformation, cliquez sur l'onglet Détails.
Pour afficher l'audit et l'historique des exécutions, cliquez sur l'onglet Exécutions.
Dans le panneau Explorateur de lignée, sélectionnez des critères de filtre (par exemple, Direction, Type de dépendance ou Période), puis cliquez sur Appliquer.
Une vue ciblée s'ouvre dans une région spécifique (aperçu). Cette vue développe automatiquement le graphique jusqu'à trois niveaux de nœuds. Pour en savoir plus, consultez Appliquer des filtres pour afficher une vue ciblée de la lignée.
Dans la vue Graphique ciblée, sélectionnez un nœud, puis, dans le panneau d'informations du nœud, cliquez sur Visualiser le chemin pour visualiser le chemin de lignée du nœud sélectionné jusqu'à l'entrée racine (uniquement dans la vue ciblée).
Pour en savoir plus, consultez Visualiser le chemin de traçabilité.
Pour afficher la traçabilité au niveau des colonnes (uniquement pour les jobs BigQuery), procédez comme suit :
- Dans une vue Graphique ciblée, cliquez sur l'icône de colonne d'un tableau.
Icône Colonne - Dans le panneau Explorateur de traçabilité, filtrez par nom de colonne, puis cliquez sur Appliquer.
Pour en savoir plus, consultez Traçabilité au niveau des colonnes.
- Dans une vue Graphique ciblée, cliquez sur l'icône de colonne d'un tableau.
Cliquez sur
Réinitialiser.Cette action supprime tous les filtres appliqués et vous ramène au début de la vue graphique.
Cliquez sur Liste pour passer à la vue Liste.
La vue Liste propose des représentations tabulaires simplifiées et détaillées de la traçabilité au niveau des tables et des colonnes, synchronisées avec la vue Graphique. Par défaut, la vue Liste simplifiée est affichée. Vous pouvez passer à la vue Liste détaillée pour analyser les relations source-cible individuelles. Vous pouvez configurer les colonnes affichées et exporter les données de lignée. Pour en savoir plus, consultez Vue Liste de la traçabilité.
Afficher la traçabilité dans BigQuery
Vous pouvez afficher des informations sur la provenance des données dans l'interface Web BigQuery.
Pour afficher la lignée, procédez comme suit :
- Dans la console Google Cloud , accédez à la page BigQuery.
Ouvrez la table pour laquelle vous souhaitez afficher la traçabilité des données.
Cliquez sur l'onglet Traçabilité.
La vue Graphique par défaut s'ouvre et affiche la traçabilité au niveau du tableau dans les systèmes et les régions. Pour en savoir plus, consultez Affichage du graphique de traçabilité.
Pour explorer manuellement le graphique de lignée, cliquez sur Développer à côté d'un nœud pour charger cinq nœuds supplémentaires à la fois.
Pour en savoir plus, consultez Explorer manuellement le graphique de lignée.
Cliquez sur un nœud dans la vue Graphique.
Le panneau Détails s'ouvre et affiche des informations sur le composant, comme son nom complet et son type. Pour en savoir plus, consultez Détails du nœud.
Dans la vue Graphique, cliquez sur un bord comportant une icône de processus.
Le panneau Requête s'ouvre. Pour en savoir plus, consultez Inspecter la logique de transformation et Audit et historique des exécutions.
Pour inspecter la logique de transformation, cliquez sur l'onglet Détails.
Pour afficher l'audit et l'historique des exécutions, cliquez sur l'onglet Exécutions.
Dans le panneau Explorateur de lignée, sélectionnez des critères de filtre (par exemple, Direction, Type de dépendance ou Période), puis cliquez sur Appliquer.
Une vue ciblée s'ouvre dans une région spécifique (aperçu). Cette vue développe automatiquement le graphique jusqu'à trois niveaux de nœuds. Pour en savoir plus, consultez Appliquer des filtres pour afficher une vue ciblée de la lignée.
Dans la vue Graphique ciblée, sélectionnez un nœud, puis, dans le panneau d'informations du nœud, cliquez sur Visualiser le chemin pour visualiser le chemin de lignée du nœud sélectionné jusqu'à l'entrée racine (uniquement dans la vue ciblée).
Pour en savoir plus, consultez Visualiser le chemin de traçabilité.
Pour afficher la traçabilité au niveau des colonnes (uniquement pour les jobs BigQuery), procédez comme suit :
- Dans une vue Graphique ciblée, cliquez sur l'icône de colonne d'un tableau.
Icône Colonne - Dans le panneau Explorateur de traçabilité, filtrez par nom de colonne, puis cliquez sur Appliquer.
Pour en savoir plus, consultez Traçabilité au niveau des colonnes.
- Dans une vue Graphique ciblée, cliquez sur l'icône de colonne d'un tableau.
Cliquez sur
Réinitialiser.Cette action supprime tous les filtres appliqués et vous ramène au début de la vue graphique.
Cliquez sur Liste pour passer à la vue Liste.
La vue Liste propose des représentations tabulaires simplifiées et détaillées de la traçabilité au niveau des tables et des colonnes, synchronisées avec la vue Graphique. Par défaut, la vue Liste simplifiée est affichée. Vous pouvez passer à la vue Liste détaillée pour analyser les relations source-cible individuelles. Vous pouvez configurer les colonnes affichées et exporter les données de lignée. Pour en savoir plus, consultez Vue Liste de la traçabilité.
Afficher la traçabilité dans Vertex AI
Des systèmes tels que Vertex AI Pipelines génèrent des données de traçabilité pour les modèles et les ensembles de données Vertex AI. Vous pouvez afficher des informations sur la traçabilité des données dans l'interface Web Vertex AI.
Afficher la traçabilité d'un ensemble de données géré dans Vertex AI
Pour afficher la lignée d'un ensemble de données, procédez comme suit :
- Dans la console Google Cloud , accédez à la page Ensembles de données.
Cliquez sur l'ensemble de données pour lequel vous souhaitez afficher la provenance des données.
Cliquez sur l'onglet Traçabilité.
La vue Graphique par défaut s'ouvre et affiche la traçabilité au niveau du tableau dans les systèmes et les régions. Pour en savoir plus, consultez Affichage du graphique de traçabilité.
Pour explorer manuellement le graphique de lignée, cliquez sur Développer à côté d'un nœud pour charger cinq nœuds supplémentaires à la fois.
Pour en savoir plus, consultez Explorer manuellement le graphique de lignée.
Cliquez sur un nœud dans la vue Graphique.
Le panneau Détails s'ouvre et affiche des informations sur le composant, comme son nom complet et son type. Pour en savoir plus, consultez Détails du nœud.
Dans la vue Graphique, cliquez sur un bord comportant une icône de processus.
Le panneau Requête s'ouvre. Pour en savoir plus, consultez Inspecter la logique de transformation et Audit et historique des exécutions.
Pour inspecter la logique de transformation, cliquez sur l'onglet Détails.
Pour afficher l'audit et l'historique des exécutions, cliquez sur l'onglet Exécutions.
Dans le panneau Explorateur de lignée, sélectionnez des critères de filtre (par exemple, Direction, Type de dépendance ou Période), puis cliquez sur Appliquer.
Une vue ciblée s'ouvre dans une région spécifique (aperçu). Cette vue développe automatiquement le graphique jusqu'à trois niveaux de nœuds. Pour en savoir plus, consultez Appliquer des filtres pour afficher une vue ciblée de la lignée.
Dans la vue Graphique ciblée, sélectionnez un nœud, puis, dans le panneau d'informations du nœud, cliquez sur Visualiser le chemin pour visualiser le chemin de lignée du nœud sélectionné jusqu'à l'entrée racine (uniquement dans la vue ciblée).
Pour en savoir plus, consultez Visualiser le chemin de traçabilité.
Pour afficher la traçabilité au niveau des colonnes (uniquement pour les jobs BigQuery), procédez comme suit :
- Dans une vue Graphique ciblée, cliquez sur l'icône de colonne d'un tableau.
Icône Colonne - Dans le panneau Explorateur de traçabilité, filtrez par nom de colonne, puis cliquez sur Appliquer.
Pour en savoir plus, consultez Traçabilité au niveau des colonnes.
- Dans une vue Graphique ciblée, cliquez sur l'icône de colonne d'un tableau.
Cliquez sur
Réinitialiser.Cette action supprime tous les filtres appliqués et vous ramène au début de la vue graphique.
Cliquez sur Liste pour passer à la vue Liste.
La vue Liste propose des représentations tabulaires simplifiées et détaillées de la traçabilité au niveau des tables et des colonnes, synchronisées avec la vue Graphique. Par défaut, la vue Liste simplifiée est affichée. Vous pouvez passer à la vue Liste détaillée pour analyser les relations source-cible individuelles. Vous pouvez configurer les colonnes affichées et exporter les données de lignée. Pour en savoir plus, consultez Vue Liste de la traçabilité.
Afficher la traçabilité d'un modèle dans Vertex AI
Pour afficher la lignée d'un modèle, procédez comme suit :
Dans la console Google Cloud , accédez à la page Model Registry.
Cliquez sur le modèle pour lequel vous souhaitez afficher l'origine des données.
Cliquez sur l'onglet Traçabilité.
La vue Graphique par défaut s'ouvre et affiche la traçabilité au niveau du tableau dans les systèmes et les régions. Pour en savoir plus, consultez Affichage du graphique de traçabilité.
Pour explorer manuellement le graphique de lignée, cliquez sur Développer à côté d'un nœud pour charger cinq nœuds supplémentaires à la fois.
Pour en savoir plus, consultez Explorer manuellement le graphique de lignée.
Cliquez sur un nœud dans la vue Graphique.
Le panneau Détails s'ouvre et affiche des informations sur le composant, comme son nom complet et son type. Pour en savoir plus, consultez Détails du nœud.
Dans la vue Graphique, cliquez sur un bord comportant une icône de processus.
Le panneau Requête s'ouvre. Pour en savoir plus, consultez Inspecter la logique de transformation et Audit et historique des exécutions.
Pour inspecter la logique de transformation, cliquez sur l'onglet Détails.
Pour afficher l'audit et l'historique des exécutions, cliquez sur l'onglet Exécutions.
Dans le panneau Explorateur de lignée, sélectionnez des critères de filtre (par exemple, Direction, Type de dépendance ou Période), puis cliquez sur Appliquer.
Une vue ciblée s'ouvre dans une région spécifique (aperçu). Cette vue développe automatiquement le graphique jusqu'à trois niveaux de nœuds. Pour en savoir plus, consultez Appliquer des filtres pour afficher une vue ciblée de la lignée.
Dans la vue Graphique ciblée, sélectionnez un nœud, puis, dans le panneau d'informations du nœud, cliquez sur Visualiser le chemin pour visualiser le chemin de lignée du nœud sélectionné jusqu'à l'entrée racine (uniquement dans la vue ciblée).
Pour en savoir plus, consultez Visualiser le chemin de traçabilité.
Pour afficher la traçabilité au niveau des colonnes (uniquement pour les jobs BigQuery), procédez comme suit :
- Dans une vue Graphique ciblée, cliquez sur l'icône de colonne d'un tableau.
Icône Colonne - Dans le panneau Explorateur de traçabilité, filtrez par nom de colonne, puis cliquez sur Appliquer.
Pour en savoir plus, consultez Traçabilité au niveau des colonnes.
- Dans une vue Graphique ciblée, cliquez sur l'icône de colonne d'un tableau.
Cliquez sur
Réinitialiser.Cette action supprime tous les filtres appliqués et vous ramène au début de la vue graphique.
Cliquez sur Liste pour passer à la vue Liste.
La vue Liste propose des représentations tabulaires simplifiées et détaillées de la traçabilité au niveau des tables et des colonnes, synchronisées avec la vue Graphique. Par défaut, la vue Liste simplifiée est affichée. Vous pouvez passer à la vue Liste détaillée pour analyser les relations source-cible individuelles. Vous pouvez configurer les colonnes affichées et exporter les données de lignée. Pour en savoir plus, consultez Vue Liste de la traçabilité.
Étapes suivantes
Suivre la traçabilité des données pour les jobs de copie et de requête d'une table BigQuery.
En savoir plus sur le modèle d'informations sur la traçabilité des données
En savoir plus sur les considérations relatives à la traçabilité des données
En savoir plus sur la journalisation d'audit de la traçabilité des données
Découvrez comment résoudre les problèmes liés à la traçabilité des données.
Découvrez comment intégrer OpenLineage.