Considérations concernant la traçabilité des données

Ce document fournit des informations sur la conformité et les limites de la traçabilité des données. La traçabilité des données est activée au niveau du projet, et non au niveau du système. Cela signifie qu'une fois l'API Data Lineage activée, les informations de traçabilité peuvent être automatiquement signalées pour plusieurs systèmes du projet, en fonction du contrôle de traçabilité au niveau du produit de chaque système.

Le suivi automatique de la traçabilité est compatible avec les systèmes suivants :

Contrôles de traçabilité au niveau du produit dans les Google Cloud systèmes compatibles
Système Contrôles de traçabilité disponibles
BigQuery,
Cloud Data Fusion
Il n'est pas possible de limiter le suivi de la traçabilité à Cloud Data Fusion ou à BigQuery uniquement lorsque l'API Data Lineage est activée dans un projet.
Cloud Composer Cloud Composer utilise un contrôle d'intégration de la traçabilité des données au niveau de l'environnement. La traçabilité des données est automatiquement activée pour tous les nouveaux environnements Cloud Composer, à condition qu'ils répondent aux exigences. Pour en savoir plus, consultez Traçabilité des données avec Knowledge Catalog (anciennement Dataplex Universal Catalog) pour plus d'informations. Pour les environnements existants, vous pouvez activer ou désactiver l'intégration de la traçabilité des données dans les paramètres de l'environnement.
Dataflow Les tâches Dataflow peuvent capturer des événements de traçabilité et les publier dans l'API Data Lineage. Pour en savoir plus, consultez Utiliser la traçabilité des données dans Dataflow.
Managed Service pour Apache Spark Les tâches Spark de Managed Service pour Apache Spark peuvent capturer des événements de traçabilité et les publier dans l'API Data Lineage. Pour en savoir plus, consultez Intégration de la traçabilité des données à Managed Service pour Apache Spark.
Looker (Google Cloud core) (Preview) Les métadonnées Looker (Google Cloud core) provenant de sources BigQuery peuvent être visualisées à l'aide de la traçabilité des données. La traçabilité des données doit être activée au niveau de la ressource Looker (Google Cloud core) et au niveau du service de traçabilité des données. Pour en savoir plus, consultez Suivre la traçabilité des données avec Knowledge Catalog.
Vertex AI La traçabilité des données est automatiquement activée pour les artefacts et les paramètres Vertex AI, tels que les modèles, les ensembles de données, les modèles de pipeline et les composants. La traçabilité d'un pipeline inclut les facteurs qui ont contribué à sa création, ainsi que les artefacts et les métadonnées dérivés par la suite. Pour en savoir plus, consultez Suivre la traçabilité des artefacts de pipeline.

Impact sur la facturation

Lorsque vous activez l'API Data Lineage sur un projet, vérifiez l'impact sur vos frais de facturation, car l'API Data Lineage est activée au niveau du projet (pour en savoir plus, consultez la section précédente). Pour en savoir plus sur la facturation de la traçabilité des données, consultez Tarifs de Knowledge Catalog.

Pour BigQuery Omni, le traitement de la traçabilité est distribué dans des régions spécifiques, et les coûts dépendent des régions dans lesquelles le traitement est effectué.

Conformité de la traçabilité des données

  • La traçabilité des données enregistre les métadonnées sur le mouvement des données, mais ne capture pas les données elles-mêmes. Pour en savoir plus sur les champs inclus dans les métadonnées, consultez Modèle d'informations sur la traçabilité des données et Référence de l'API Data Lineage.
  • La traçabilité des données dans Knowledge Catalog est compatible avec VPC-SC.
  • Knowledge Catalog ne permet pas d'utiliser des clés de chiffrement gérées par le client pour protéger les métadonnées de traçabilité collectées.

Limites de la traçabilité des données

Lorsque vous sélectionnez un nœud dans le graphique de traçabilité, le panneau latéral des détails du nœud est vide dans les cas suivants :

  1. la ressource se trouve dans une autre organisation ; ou
  2. l'utilisateur n'est pas membre de l'organisation qui héberge la ressource.