Cette page explique comment afficher la traçabilité des données générées par vos pipelines Cloud Data Fusion avec d'autres transferts de données sur Google Cloud, à des fins de découverte et de gouvernance. Vous pouvez afficher les graphiques de traçabilité pour les sources de données compatibles sur la page Knowledge Catalog de la console ou utiliser l'API Data Lineage pour récupérer des enregistrements complets de traçabilité des données.
Plug-ins compatibles avec la traçabilité des données Knowledge Catalog
Cloud Data Fusion et Knowledge Catalog sont compatibles avec la traçabilité au niveau des éléments pour les plug-ins suivants :
- Amazon S3
- BigQuery
- Récepteur multi-tables BigQuery (version 6.9.1 et ultérieure)
- Spanner
- Cloud Storage
- Cloud SQL pour MySQL
- Cloud SQL pour PostgreSQL
- Knowledge Catalog
- FTP
- Base de données générique
- HTTP
- MSSQL/SQL Server
- Source de plusieurs tables de base de données (version 6.9.1 et ultérieure)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- SAP ODP
- Table SAP
Pour en savoir plus, consultez Plug-ins Cloud Data Fusion.
Avant de commencer
Pour afficher les graphiques de traçabilité Cloud Data Fusion sur la page Knowledge Catalog de la console, procédez comme suit :
Créez un pipeline de données qui n'utilise que les plug-ins compatibles.
Activez l'API Data Lineage dans le projet qui contient votre instance Cloud Data Fusion.
Accordez le rôle Producteur d'événements de traçabilité des données (
roles/datalineage.producer) au compte de service géré par Cloud Data Fusion, l'agent de service de l'API Cloud Data Fusion. Le processus varie si votre instance s'exécute dans une version antérieure de Cloud Data Fusion et que RBAC est activé.6.10+ ou RBAC non activé
Si votre instance Cloud Data Fusion utilise la version 6.10.0 ou ultérieure, ou si votre instance utilise une version antérieure et que RBAC n'est pas activé, procédez comme suit :
Dans la Google Cloud console, accédez à la page IAM.
Cochez la case Inclure les attributions de rôles fournies par Google.
Sélectionnez le compte de service de l'agent de service de l'API Cloud Data Fusion, puis cliquez sur Modifier.
Cliquez sur Ajouter un autre rôle et sélectionnez le rôle Producteur d'événements de traçabilité des données.
Cliquez sur Enregistrer.
<6.10 avec RBAC
Si votre instance Cloud Data Fusion utilise une version antérieure à la version 6.10.0 et que RBAC est activé, le compte de service n'apparaît pas dans la liste des comptes principaux sur la page IAM. Vous devez saisir manuellement le nom du compte de service.
Pour accorder le rôle requis, procédez comme suit :
Dans la Google Cloud console, accédez à la page IAM.
Cliquez sur Accorder l'accès.
Dans le champ Nouveaux comptes principaux, saisissez le compte de service de l'agent de service de l'API Cloud Data Fusion. Utilisez le format suivant :
datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com.Remplacez
TENANT_PROJECT_IDpar l'ID de locataire de votre instance. Pour afficher l'ID de projet locataire, accédez à la page Instances , puis cliquez sur le nom de l'instance pour afficher les détails de l'instance.Sélectionnez le rôle Producteur d'événements de traçabilité des données.
Cliquez sur Enregistrer.
Activer la traçabilité des données Knowledge Catalog dans Cloud Data Fusion
Pour les nouvelles instances dans Cloud Data Fusion, la traçabilité des données Knowledge Catalog est désactivée par défaut. Si vous avez créé l'instance avant le 27 janvier, 2024 avec la version 6.8.0 ou ultérieure, elle est activée par défaut une fois les étapes de la section Avant de commencer effectuées.
Activer la traçabilité des données Knowledge Catalog lorsque vous créez une instance
Console
Pour activer la traçabilité des données Knowledge Catalog lorsque vous créez une instance, procédez comme suit :
Accédez à la page Instances de Cloud Data Fusion, puis cliquez sur Créer une instance.
Lorsque vous configurez l'instance, développez la section Options avancées , puis cliquez sur Activer l'intégration avec la traçabilité des données Dataplex. Pour en savoir plus sur la création d'instances, consultez Créer une instance publique.
API REST
Pour activer la traçabilité des données Knowledge Catalog lorsque vous créez une instance, définissez la propriété facultative dataplex_data_lineage_integration_enabled sur true :
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"
Pour la désactiver, définissez la propriété sur "false" ou omettez-la, car la traçabilité est désactivée par défaut lorsque vous créez une instance.
Activer ou désactiver la traçabilité des données Knowledge Catalog dans une instance existante
Console
Pour activer ou désactiver la traçabilité des données Knowledge Catalog dans une instance existante dans Cloud Data Fusion, procédez comme suit :
- Affichez les détails de l'instance :
Dans la Google Cloud console, accédez à la page Cloud Data Fusion.
Cliquez sur Instances, puis sur le nom de l'instance pour accéder à la page Détails de l'instance.
- Dans le champ Intégration de la traçabilité des données Dataplex, cliquez sur Modifier.
- Activez ou désactivez la traçabilité des données Knowledge Catalog, puis cliquez sur Enregistrer.
API REST
Pour activer la traçabilité des données Knowledge Catalog dans une instance existante dans Cloud Data Fusion, définissez la propriété dataplex_data_lineage_integration_enabled sur true et incluez la valeur du paramètre updateMask :
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Pour désactiver la traçabilité des données Knowledge Catalog dans une instance existante dans Cloud Data Fusion, définissez la propriété dataplex_data_lineage_integration_enabled sur false et incluez la valeur du paramètre updateMask :
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Afficher les graphiques de traçabilité des données
Pour afficher les graphiques de traçabilité des entités dans tous les Google Cloud services, procédez comme suit :
Accédez à votre instance dans Cloud Data Fusion et exécutez un pipeline de données qui utilise des plug-ins compatibles.
Affichez les graphiques de traçabilité sur la page Knowledge Catalog de la console et recherchez l'élément pour lequel vous souhaitez afficher les informations de traçabilité.
Limites
L'affichage de la traçabilité dans Knowledge Catalog présente les limites suivantes :
La traçabilité dans Knowledge Catalog n'est détectable que s'il existe une entité BigQuery connectée aux plug-ins compatibles. Pour en savoir plus sur la disponibilité des graphiques de traçabilité des données, consultez À propos de la traçabilité des données.
L'API Data Lineage n'est pas compatible avec les clés de chiffrement gérées par le client (CMEK).
Cloud Data Fusion n'est pas compatible avec cette fonctionnalité dans les régions
me-central1nieurope-west12.Consultez les considérations relatives à la traçabilité des données.
Étape suivante
- Découvrez-en plus sur la traçabilité des données.