La traçabilité des données affiche les relations entre les ressources de votre projet et les processus qui les ont créées.
Vous pouvez afficher les détails de la traçabilité des données dans la console Google Cloud ou les récupérer à l'aide de l'API Data Lineage.
Selon le volume de données traitées, il faut un certain temps pour que la traçabilité des données affiche un graphique. La plupart des jobs prennent trois heures, mais certaines peuvent prendre jusqu'à 24 heures.
La traçabilité est capturée dans tous les projets. Lorsque vous consultez la traçabilité générée à partir de plusieurs projets, vous pouvez afficher les informations agrégées sur la traçabilité dans l'un des projets concernés.
Rôles et autorisations
Pour afficher la traçabilité des données, vous devez disposer d'autorisations Identity and Access Management (IAM) spécifiques. Les informations sur la traçabilité sont capturées dans plusieurs projets. Vous devez donc disposer d'autorisations dans plusieurs projets.
Lorsque vous consultez la traçabilité dans Dataplex Universal Catalog, BigQuery ou Vertex AI, vous avez besoin d'autorisations pour afficher les informations de traçabilité dans le projet dans lequel vous les consultez.
Lorsque vous consultez la traçabilité enregistrée dans d'autres projets : vous devez disposer des autorisations nécessaires pour afficher les informations de traçabilité dans les projets où il a été enregistré.
Pour afficher la traçabilité des données, vous devez disposer des rôles ou autorisations suivants. Attribuez ces rôles au compte principal (par exemple, l'utilisateur ou le compte de service) sur les ressources concernées (par exemple, les projets ou les tables BigQuery).
Lecteur de la traçabilité des données (
roles/datalineage.viewer) : accorde l'autorisation d'afficher la traçabilité dans la console Google Cloud et d'utiliser l'API Data Lineage. Vous devez appliquer ce rôle aux projets dans lesquels la traçabilité est enregistrée et à ceux dans lesquels elle est consultée. Pour en savoir plus, consultez Types de projets.Lecteur Dataplex Universal Catalog (
roles/dataplex.catalogViewer) : accorde l'autorisation d'afficher les métadonnées des éléments catalogués dans Dataplex Universal Catalog. Accordez ce rôle aux projets dans lesquels les entrées de catalogue sont stockées pour permettre aux utilisateurs de consulter les détails des entrées dans le graphique de traçabilité. Vous pouvez également accorder un rôle de lecteur sur le système source. Pour en savoir plus, consultez Rechercher des éléments de données avec Dataplex Universal Catalog.Autres autorisations BigQuery :
- Pour afficher les détails des éléments BigQuery dans le graphique de traçabilité, tels que les définitions de tables ou les requêtes de vues, attribuez le rôle Lecteur de données BigQuery (
roles/bigquery.dataViewer). - Pour afficher la requête SQL d'un job BigQuery qui a généré la traçabilité, accordez l'autorisation
bigquery.jobs.get. Cette autorisation est incluse dans des rôles tels que Administrateur BigQuery (roles/bigquery.admin) et Lecteur de ressources BigQuery (roles/bigquery.resourceViewer).
- Pour afficher les détails des éléments BigQuery dans le graphique de traçabilité, tels que les définitions de tables ou les requêtes de vues, attribuez le rôle Lecteur de données BigQuery (
La traçabilité des données suit automatiquement les informations de traçabilité lorsque vous activez l'API Data Lineage. Vous n'avez besoin d'aucun rôle d'administrateur ni d'éditeur pour capturer la traçabilité de vos éléments de données.
Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès. Vous pouvez attribuer un rôle à un niveau supérieur (dossier ou organisation). Pour en savoir plus, consultez Attribuer ou révoquer un rôle unique.
Types de vues de traçabilité des données
Vous pouvez afficher les informations sur la traçabilité sous forme de graphique ou de liste. Le graphique de traçabilité affiche la traçabilité au niveau des tables par défaut. Pour les jobs BigQuery, vous pouvez afficher la traçabilité au niveau des colonnes dans les vues Graphique et Liste.
Les types de vue suivants sont disponibles :
Vue Graphique : affiche la traçabilité sous forme de graphique interactif, ce qui vous permet d'explorer les relations entre les éléments et les colonnes de données en développant les nœuds.
Vue Liste : affiche la traçabilité sous forme de tableau, en fournissant des représentations simplifiées et détaillées de la traçabilité au niveau des tables et des colonnes. Vous pouvez personnaliser les colonnes et exporter les données de traçabilité à partir de cette vue.
Les éléments clés du graphique sont décrits comme suit :
Nœuds : représentent les entités de données. Dans la vue au niveau de la table, un nœud affiche le nom de la table et ses colonnes. Dans la vue au niveau des colonnes, chaque nœud représente une table spécifique et ses colonnes ayant une traçabilité.
Arêtes : lignes qui relient les nœuds et représentent les processus qui se produisent entre eux. Les arêtes peuvent comporter des icônes ou des étiquettes pour fournir plus d'informations sur la transformation :
- Icônes : dans la vue au niveau de la table, des icônes s'affichent sur les arêtes pour représenter le processus de transformation. Lorsque vous explorez manuellement le graphique, les icônes sur les arêtes représentent le système source du processus (par exemple, BigQuery ou Vertex AI). Si plusieurs processus sont impliqués, une icône "Plusieurs processus" s'affiche. Si le système source du processus est inconnu, une icône en forme d'engrenage est utilisée. Lorsque vous appliquez des filtres, une icône en forme d'engrenage est utilisée pour tous les processus.
- Étiquettes : dans la vue au niveau des colonnes, les arêtes sont étiquetés pour décrire le type de dépendance entre les colonnes, comme
Exact copyouOther.
Activer la traçabilité des données
Activez la traçabilité des données pour commencer à suivre automatiquement les informations de traçabilité pour les systèmes compatibles. Vous devez activer l'API Data Lineage à la fois dans le projet où vous consultez la traçabilité et dans les projets où elle est enregistrée. Pour en savoir plus, consultez Types de projets.
- Pour capturer des informations sur la traçabilité, procédez comme suit :
-
Dans la console Google Cloud , sur la page Sélecteur de projet, sélectionnez le projet dans lequel vous souhaitez enregistrer la traçabilité.
Activez l'API Data Lineage.
- Répétez les étapes précédentes pour chaque projet dans lequel vous souhaitez enregistrer la traçabilité.
-
Dans le projet dans lequel vous consultez la traçabilité, activez l'API Data Lineage et l'API Dataplex.
Afficher la traçabilité dans Dataplex Universal Catalog
Vous pouvez afficher des informations sur la traçabilité des données dans l'interface Web Dataplex Universal Catalog.
Pour afficher la traçabilité, procédez comme suit :
Dans la console Google Cloud , accédez à la page Rechercher de Dataplex Universal Catalog.
Sélectionnez Dataplex Universal Catalog comme mode de recherche.
Recherchez l'entrée que vous souhaitez afficher, puis cliquez dessus. Pour en savoir plus, consultez Rechercher des ressources dans Dataplex Universal Catalog.
Cliquez sur l'onglet Traçabilité.
La vue Graphique par défaut s'ouvre et affiche la traçabilité au niveau de la table dans les systèmes et les régions. Pour en savoir plus, consultez Vue Graphique de traçabilité.
Pour explorer manuellement le graphique de traçabilité, cliquez sur Développer à côté d'un nœud pour charger cinq nœuds supplémentaires à la fois.
Pour en savoir plus, consultez Explorer manuellement le graphique de traçabilité.
Cliquez sur un nœud dans la vue Graphique.
Le panneau Détails s'ouvre et affiche des informations sur l'élément, comme son nom complet et son type. Pour en savoir plus, consultez Détails du nœud.
Dans la vue Graphique, cliquez sur une arête comportant une icône de processus.
Le panneau Requête s'ouvre. Pour en savoir plus, consultez Inspecter la logique de transformation et Audit et historique des exécutions.
Pour inspecter la logique de transformation, cliquez sur l'onglet Détails.
Pour afficher l'audit et l'historique des exécutions, cliquez sur l'onglet Exécutions.
Dans le panneau Explorateur de traçabilité, sélectionnez des critères de filtre (par exemple, Direction, Type de dépendance ou Période), puis cliquez sur Appliquer.
Une vue ciblée s'ouvre dans une région spécifique (preview). Cette vue développe automatiquement le graphique jusqu'à trois niveaux de nœuds. Pour en savoir plus, consultez Appliquer des filtres pour afficher une vue ciblée de la traçabilité.
Dans la vue Graphique ciblée, sélectionnez un nœud, puis, dans le panneau d'informations du nœud, cliquez sur Visualiser le chemin pour visualiser le chemin de traçabilité du nœud sélectionné jusqu'à l'entrée racine (uniquement dans la vue ciblée).
Pour en savoir plus, consultez Visualisation du chemin de traçabilité.
Pour afficher la traçabilité au niveau des colonnes (uniquement pour les jobs BigQuery), procédez comme suit :
- Dans une vue Graphique ciblée, cliquez sur l'icône de colonne d'une table.
Icône Colonnes - Dans le panneau Explorateur de traçabilité, filtrez par nom de colonne, puis cliquez sur Appliquer.
Pour en savoir plus, consultez Traçabilité au niveau des colonnes.
- Dans une vue Graphique ciblée, cliquez sur l'icône de colonne d'une table.
Cliquez sur Réinitialiser.
Cette action supprime tous les filtres appliqués et vous ramène au début de la vue graphique.
Cliquez sur Liste pour passer à la vue Liste.
La vue Liste propose des représentations tabulaires simplifiées et détaillées de la traçabilité au niveau des tables et des colonnes, synchronisées avec la vue Graphique. Par défaut, la vue Liste simplifiée est affichée. Vous pouvez passer à la vue Liste détaillée pour analyser les relations source-cible individuelles. Vous pouvez configurer les colonnes affichées et exporter les données de traçabilité. Pour en savoir plus, consultez Vue Liste de la traçabilité.
Afficher la traçabilité dans BigQuery
Vous pouvez afficher des informations sur la traçabilité des données dans l'interface Web BigQuery.
Pour afficher la traçabilité, procédez comme suit :
- Dans la console Google Cloud , accédez à la page BigQuery.
Ouvrez la table pour laquelle vous souhaitez afficher la traçabilité des données.
Cliquez sur l'onglet Traçabilité.
La vue Graphique par défaut s'ouvre et affiche la traçabilité au niveau de la table dans les systèmes et les régions. Pour en savoir plus, consultez Vue Graphique de traçabilité.
Pour explorer manuellement le graphique de traçabilité, cliquez sur Développer à côté d'un nœud pour charger cinq nœuds supplémentaires à la fois.
Pour en savoir plus, consultez Explorer manuellement le graphique de traçabilité.
Cliquez sur un nœud dans la vue Graphique.
Le panneau Détails s'ouvre et affiche des informations sur l'élément, comme son nom complet et son type. Pour en savoir plus, consultez Détails du nœud.
Dans la vue Graphique, cliquez sur une arête comportant une icône de processus.
Le panneau Requête s'ouvre. Pour en savoir plus, consultez Inspecter la logique de transformation et Audit et historique des exécutions.
Pour inspecter la logique de transformation, cliquez sur l'onglet Détails.
Pour afficher l'audit et l'historique des exécutions, cliquez sur l'onglet Exécutions.
Dans le panneau Explorateur de traçabilité, sélectionnez des critères de filtre (par exemple, Direction, Type de dépendance ou Période), puis cliquez sur Appliquer.
Une vue ciblée s'ouvre dans une région spécifique (preview). Cette vue développe automatiquement le graphique jusqu'à trois niveaux de nœuds. Pour en savoir plus, consultez Appliquer des filtres pour afficher une vue ciblée de la traçabilité.
Dans la vue Graphique ciblée, sélectionnez un nœud, puis, dans le panneau d'informations du nœud, cliquez sur Visualiser le chemin pour visualiser le chemin de traçabilité du nœud sélectionné jusqu'à l'entrée racine (uniquement dans la vue ciblée).
Pour en savoir plus, consultez Visualisation du chemin de traçabilité.
Pour afficher la traçabilité au niveau des colonnes (uniquement pour les jobs BigQuery), procédez comme suit :
- Dans une vue Graphique ciblée, cliquez sur l'icône de colonne d'une table.
Icône Colonnes - Dans le panneau Explorateur de traçabilité, filtrez par nom de colonne, puis cliquez sur Appliquer.
Pour en savoir plus, consultez Traçabilité au niveau des colonnes.
- Dans une vue Graphique ciblée, cliquez sur l'icône de colonne d'une table.
Cliquez sur Réinitialiser.
Cette action supprime tous les filtres appliqués et vous ramène au début de la vue graphique.
Cliquez sur Liste pour passer à la vue Liste.
La vue Liste propose des représentations tabulaires simplifiées et détaillées de la traçabilité au niveau des tables et des colonnes, synchronisées avec la vue Graphique. Par défaut, la vue Liste simplifiée est affichée. Vous pouvez passer à la vue Liste détaillée pour analyser les relations source-cible individuelles. Vous pouvez configurer les colonnes affichées et exporter les données de traçabilité. Pour en savoir plus, consultez Vue Liste de la traçabilité.
Afficher la traçabilité dans Vertex AI
Des systèmes tels que Vertex AI Pipelines génèrent des données de traçabilité pour les modèles et les ensembles de données Vertex AI. Vous pouvez afficher des informations sur la traçabilité des données dans l'interface Web Vertex AI.
Afficher la traçabilité d'un ensemble de données géré dans Vertex AI
Pour afficher la traçabilité d'un ensemble de données, procédez comme suit :
- Dans la console Google Cloud , accédez à la page Ensembles de données.
Cliquez sur l'ensemble de données pour lequel vous souhaitez afficher la traçabilité des données.
Cliquez sur l'onglet Traçabilité.
La vue Graphique par défaut s'ouvre et affiche la traçabilité au niveau de la table dans les systèmes et les régions. Pour en savoir plus, consultez Vue Graphique de traçabilité.
Pour explorer manuellement le graphique de traçabilité, cliquez sur Développer à côté d'un nœud pour charger cinq nœuds supplémentaires à la fois.
Pour en savoir plus, consultez Explorer manuellement le graphique de traçabilité.
Cliquez sur un nœud dans la vue Graphique.
Le panneau Détails s'ouvre et affiche des informations sur l'élément, comme son nom complet et son type. Pour en savoir plus, consultez Détails du nœud.
Dans la vue Graphique, cliquez sur une arête comportant une icône de processus.
Le panneau Requête s'ouvre. Pour en savoir plus, consultez Inspecter la logique de transformation et Audit et historique des exécutions.
Pour inspecter la logique de transformation, cliquez sur l'onglet Détails.
Pour afficher l'audit et l'historique des exécutions, cliquez sur l'onglet Exécutions.
Dans le panneau Explorateur de traçabilité, sélectionnez des critères de filtre (par exemple, Direction, Type de dépendance ou Période), puis cliquez sur Appliquer.
Une vue ciblée s'ouvre dans une région spécifique (preview). Cette vue développe automatiquement le graphique jusqu'à trois niveaux de nœuds. Pour en savoir plus, consultez Appliquer des filtres pour afficher une vue ciblée de la traçabilité.
Dans la vue Graphique ciblée, sélectionnez un nœud, puis, dans le panneau d'informations du nœud, cliquez sur Visualiser le chemin pour visualiser le chemin de traçabilité du nœud sélectionné jusqu'à l'entrée racine (uniquement dans la vue ciblée).
Pour en savoir plus, consultez Visualisation du chemin de traçabilité.
Pour afficher la traçabilité au niveau des colonnes (uniquement pour les jobs BigQuery), procédez comme suit :
- Dans une vue Graphique ciblée, cliquez sur l'icône de colonne d'une table.
Icône Colonnes - Dans le panneau Explorateur de traçabilité, filtrez par nom de colonne, puis cliquez sur Appliquer.
Pour en savoir plus, consultez Traçabilité au niveau des colonnes.
- Dans une vue Graphique ciblée, cliquez sur l'icône de colonne d'une table.
Cliquez sur Réinitialiser.
Cette action supprime tous les filtres appliqués et vous ramène au début de la vue graphique.
Cliquez sur Liste pour passer à la vue Liste.
La vue Liste propose des représentations tabulaires simplifiées et détaillées de la traçabilité au niveau des tables et des colonnes, synchronisées avec la vue Graphique. Par défaut, la vue Liste simplifiée est affichée. Vous pouvez passer à la vue Liste détaillée pour analyser les relations source-cible individuelles. Vous pouvez configurer les colonnes affichées et exporter les données de traçabilité. Pour en savoir plus, consultez Vue Liste de la traçabilité.
Afficher la traçabilité d'un modèle dans Vertex AI
Pour afficher la traçabilité d'un modèle, procédez comme suit :
Dans la console Google Cloud , accédez à la page Model Registry.
Cliquez sur le modèle pour lequel vous souhaitez afficher la traçabilité des données.
Cliquez sur l'onglet Traçabilité.
La vue Graphique par défaut s'ouvre et affiche la traçabilité au niveau de la table dans les systèmes et les régions. Pour en savoir plus, consultez Vue Graphique de traçabilité.
Pour explorer manuellement le graphique de traçabilité, cliquez sur Développer à côté d'un nœud pour charger cinq nœuds supplémentaires à la fois.
Pour en savoir plus, consultez Explorer manuellement le graphique de traçabilité.
Cliquez sur un nœud dans la vue Graphique.
Le panneau Détails s'ouvre et affiche des informations sur l'élément, comme son nom complet et son type. Pour en savoir plus, consultez Détails du nœud.
Dans la vue Graphique, cliquez sur une arête comportant une icône de processus.
Le panneau Requête s'ouvre. Pour en savoir plus, consultez Inspecter la logique de transformation et Audit et historique des exécutions.
Pour inspecter la logique de transformation, cliquez sur l'onglet Détails.
Pour afficher l'audit et l'historique des exécutions, cliquez sur l'onglet Exécutions.
Dans le panneau Explorateur de traçabilité, sélectionnez des critères de filtre (par exemple, Direction, Type de dépendance ou Période), puis cliquez sur Appliquer.
Une vue ciblée s'ouvre dans une région spécifique (preview). Cette vue développe automatiquement le graphique jusqu'à trois niveaux de nœuds. Pour en savoir plus, consultez Appliquer des filtres pour afficher une vue ciblée de la traçabilité.
Dans la vue Graphique ciblée, sélectionnez un nœud, puis, dans le panneau d'informations du nœud, cliquez sur Visualiser le chemin pour visualiser le chemin de traçabilité du nœud sélectionné jusqu'à l'entrée racine (uniquement dans la vue ciblée).
Pour en savoir plus, consultez Visualisation du chemin de traçabilité.
Pour afficher la traçabilité au niveau des colonnes (uniquement pour les jobs BigQuery), procédez comme suit :
- Dans une vue Graphique ciblée, cliquez sur l'icône de colonne d'une table.
Icône Colonnes - Dans le panneau Explorateur de traçabilité, filtrez par nom de colonne, puis cliquez sur Appliquer.
Pour en savoir plus, consultez Traçabilité au niveau des colonnes.
- Dans une vue Graphique ciblée, cliquez sur l'icône de colonne d'une table.
Cliquez sur Réinitialiser.
Cette action supprime tous les filtres appliqués et vous ramène au début de la vue graphique.
Cliquez sur Liste pour passer à la vue Liste.
La vue Liste propose des représentations tabulaires simplifiées et détaillées de la traçabilité au niveau des tables et des colonnes, synchronisées avec la vue Graphique. Par défaut, la vue Liste simplifiée est affichée. Vous pouvez passer à la vue Liste détaillée pour analyser les relations source-cible individuelles. Vous pouvez configurer les colonnes affichées et exporter les données de traçabilité. Pour en savoir plus, consultez Vue Liste de la traçabilité.
Étapes suivantes
Suivez la traçabilité des données pour les jobs de copie et de requête d'une table BigQuery.
Renseignez-vous sur le modèle d'informations sur la traçabilité des données.
Renseignez-vous sur les considérations relatives à la traçabilité des données.
Renseignez-vous sur la journalisation d'audit de la traçabilité des données.
Découvrez comment résoudre les problèmes liés à la traçabilité des données.
Découvrez comment intégrer OpenLineage.