Questa pagina descrive come visualizzare la derivazione dei dati generata dalle pipeline di Cloud Data Fusion con altri spostamenti di dati su Google Cloud, a fini di rilevamento e governance. Puoi visualizzare i grafici di derivazione per le origini dati supportate nella pagina Knowledge Catalog della console oppure utilizzare l'API Data Lineage per recuperare i record di derivazione dei dati completi.
Plug-in che supportano la derivazione dei dati Knowledge Catalog
Cloud Data Fusion e Knowledge Catalog supportano la derivazione a livello di asset per i seguenti plug-in:
- Amazon S3
- BigQuery
- Sink BigQuery Multi Table (versione 6.9.1 e successive)
- Spanner
- Cloud Storage
- Cloud SQL per MySQL
- Cloud SQL per PostgreSQL
- Knowledge Catalog
- FTP
- Database generico
- HTTP
- MSSQL/SQL Server
- Origine più tabelle di database (versione 6.9.1 e successive)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- SAP ODP
- SAP Table
Per saperne di più, consulta Plug-in di Cloud Data Fusion.
Prima di iniziare
Per abilitare la visualizzazione dei grafici di derivazione di Cloud Data Fusion nella pagina Knowledge Catalog della console, procedi nel seguente modo:
Crea una pipeline di dati che utilizzi solo i plug-in supportati.
Abilita l'API Data Lineage nel progetto che contiene l'istanza Cloud Data Fusion.
Concedi il ruolo Produttore di eventi Data Lineage (
roles/datalineage.producer) al account di servizio gestito da Cloud Data Fusion, l'agente di servizio API Cloud Data Fusion. La procedura varia se l'istanza viene eseguita in una versione precedente di Cloud Data Fusion e RBAC è abilitato.6.10+ o nessun RBAC
Se la tua istanza Cloud Data Fusion utilizza la versione 6.10.0 o successive oppure utilizza una versione precedente e RBAC non è abilitato, segui questi passaggi:
Nella console Google Cloud vai alla pagina IAM.
Seleziona la casella di controllo Includi concessioni di ruoli fornite da Google.
Seleziona il account di servizio agent API Data Fusion e fai clic su Modifica.
Fai clic su Aggiungi un altro ruolo e seleziona il ruolo Data Lineage Events Producer.
Fai clic su Salva.
<6.10 con RBAC
Se la tua istanza Cloud Data Fusion utilizza una versione precedente alla 6.10.0 e il controllo dell'accesso basato sui ruoli è abilitato, il account di servizio non viene visualizzato nell'elenco delle entità nella pagina IAM. Devi inserire manualmente il nome dell'account di servizio.
Per concedere il ruolo richiesto, segui questi passaggi:
Nella console Google Cloud vai alla pagina IAM.
Fai clic su Concedi l'accesso.
Nel campo Nuove entità, inserisci il service account del service agent API Cloud Data Fusion. Utilizza il formato seguente:
datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com.Sostituisci
TENANT_PROJECT_IDcon l'ID tenant della tua istanza. Per visualizzare l'ID progetto tenant, vai alla pagina Istanze e fai clic sul nome dell'istanza per visualizzarne i dettagli.Seleziona il ruolo Data Lineage Events Producer.
Fai clic su Salva.
Abilitare la derivazione dei dati Knowledge Catalog in Cloud Data Fusion
Per le nuove istanze in Cloud Data Fusion, la derivazione dei dati di Knowledge Catalog è disattivata per impostazione predefinita. Se hai creato l'istanza prima del 27 gennaio 2024 con la versione 6.8.0 o successive, questa funzionalità è attivata per impostazione predefinita dopo aver completato i passaggi descritti in Prima di iniziare.
Abilita la derivazione dei dati Knowledge Catalog durante la creazione di un'istanza
Console
Per abilitare la derivazione dei dati di Knowledge Catalog quando crei un'istanza, segui questi passaggi:
Vai alla pagina Istanze di Cloud Data Fusion e fai clic su Crea un'istanza.
Quando configuri l'istanza, espandi la sezione Opzioni avanzate e fai clic su Abilita l'integrazione con la derivazione dei dati Dataplex. Per ulteriori informazioni sulla creazione di istanze, vedi Crea un'istanza pubblica.
API REST
Per abilitare la derivazione dei dati Knowledge Catalog quando crei un'istanza,
imposta la proprietà facoltativa dataplex_data_lineage_integration_enabled su
true:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"
Per disattivarla, imposta la proprietà su false o ometti la proprietà, poiché la derivazione è disattivata per impostazione predefinita quando crei una nuova istanza.
Attivare o disattivare la derivazione dei dati Knowledge Catalog in un'istanza esistente
Console
Per attivare o disattivare la derivazione dei dati Knowledge Catalog in un'istanza esistente in Cloud Data Fusion:
- Visualizza i dettagli dell'istanza:
Nella Google Cloud console, vai alla pagina Cloud Data Fusion.
Fai clic su Istanze, quindi sul nome dell'istanza per andare alla pagina Dettagli istanza.
- Nel campo Integrazione della derivazione dei dati Dataplex, fai clic su Modifica.
- Attiva o disattiva la derivazione dei dati Knowledge Catalog, quindi fai clic su Salva.
API REST
Per attivare la derivazione dei dati di Knowledge Catalog in un'istanza esistente in
Cloud Data Fusion, imposta la proprietà dataplex_data_lineage_integration_enabled su true e includi il valore parametro updateMask:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Per disattivare la derivazione dei dati di Knowledge Catalog in un'istanza esistente in
Cloud Data Fusion, imposta la proprietà dataplex_data_lineage_integration_enabled su false e includi il valore parametro updateMask:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Visualizzare i grafici della derivazione dei dati
Per visualizzare i grafici di derivazione per le entità in tutti i servizi Google Cloud :
Vai all'istanza in Cloud Data Fusion ed esegui una pipeline di dati che utilizza i plug-in supportati.
Visualizza i grafici di derivazione nella pagina Knowledge Catalog della console e trova l'asset per cui vuoi visualizzare le informazioni sulla derivazione.
Limitazioni
La visualizzazione della derivazione in Knowledge Catalog presenta le seguenti limitazioni:
La derivazione nel catalogo delle conoscenze è rilevabile solo se è presente un'entità BigQuery collegata ai plug-in supportati. Per saperne di più su quando sono disponibili i grafici della derivazione dei dati, consulta Informazioni sulla derivazione dei dati.
L'API Data Lineage non supporta le chiavi di crittografia gestite dal cliente (CMEK).
Cloud Data Fusion non supporta questa funzionalità nelle località
me-central1oeurope-west12.Esamina le considerazioni sulla derivazione dei dati.
Passaggi successivi
- Scopri di più sulla derivazione dei dati.