La derivazione dei dati è una funzionalità di Dataflow che consente di monitorare il modo in cui i dati vengono trasferiti nei sistemi: da dove provengono, dove vengono inviati e a quali trasformazioni sono sottoposti.
Ogni pipeline eseguita utilizzando Dataflow ha diverse risorse di dati associate. La derivazione di un asset di dati include la sua origine, cosa succede e dove si sposta nel tempo. Con la derivazione dei dati, puoi monitorare il movimento end-to-end delle risorse di dati, dall'origine alla destinazione finale.
Quando abiliti la derivazione dei dati per i tuoi job Dataflow, Dataflow acquisisce gli eventi di derivazione e li pubblica nell'API Data Lineage di Dataplex Universal Catalog.
Per accedere alle informazioni sulla derivazione tramite Dataplex Universal Catalog, consulta Utilizzare la derivazione dei dati con i Google Cloud Platform Cloud.
Prima di iniziare
Configura il progetto:
- Sign in to your Google Cloud Platform account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, BigQuery, and Data lineage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles. -
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, BigQuery, and Data lineage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles. -
Visualizzatore del catalogo Dataplex (
roles/dataplex.catalogViewer) nel progetto di risorse di Dataplex Universal Catalog -
Visualizzatore Data Lineage (
roles/datalineage.viewer) nel progetto in cui utilizzi Dataflow -
Dataflow Viewer (
roles/dataflow.viewer) nel progetto in cui utilizzi Dataflow - La derivazione dei dati è supportata nelle versioni dell'SDK Apache Beam 2.63.0 e successive.
- Devi abilitare la derivazione dei dati per ogni job.
- L'acquisizione dei dati non è istantanea. Potrebbero essere necessari alcuni minuti prima che i dati di derivazione dei job Dataflow vengano visualizzati in Dataplex Universal Catalog.
Sono supportate le seguenti origini e destinazioni:
- Apache Kafka
- BigQuery (i job di streaming in Python utilizzano il metodo legacy
STREAMING_INSERTche non supporta la derivazione dei dati. Per utilizzare la derivazione dei dati, passa al metodoSTORAGE_WRITE_APIconsigliato. Per ulteriori informazioni, vedi Scrivere da Dataflow a BigQuery.) - Bigtable
- Cloud Storage
- JDBC (Java Database Connectivity)
- Pub/Sub
- Spanner (il flusso di modifiche non è supportato)
I modelli Dataflow che utilizzano queste origini e sink acquisiscono e pubblicano automaticamente anche gli eventi di derivazione.
process_id: un identificatore univoco utilizzato da Dataplex Universal Catalog per raggruppare le esecuzioni dei job. Se non specificato, viene utilizzato il nome del job.process_name: un nome leggibile per il processo di derivazione dei dati. Se non specificato, viene utilizzato il nome del job con il prefisso"Dataflow ".- Scopri di più sulla derivazione dei dati.
- Scopri come utilizzare la derivazione dei dati.
In Dataflow, devi anche abilitare la derivazione a livello di job. Consulta la sezione Abilitare la derivazione dei dati in Dataflow in questo documento.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per visualizzare i grafici di visualizzazione della derivazione, chiedi all'amministratore di concederti i seguenti ruoli IAM:
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Per saperne di più sui ruoli di derivazione dei dati, consulta Ruoli predefiniti per la derivazione dei dati.
Supporto e limitazioni
La derivazione dei dati in Dataflow presenta le seguenti limitazioni:
Abilitare la derivazione dei dati in Dataflow
Devi abilitare la derivazione a livello di job. Per attivare la derivazione dei dati,
utilizza l'enable_lineage
opzione del servizio Dataflow
nel seguente modo:
Java
--dataflowServiceOptions=enable_lineage=true
Python
--dataflow_service_options=enable_lineage=true
Vai
--dataflow_service_options=enable_lineage=true
gcloud
Utilizza il comando gcloud dataflow jobs run con l'opzione additional-experiments. Se utilizzi modelli flessibili, utilizza il comando
gcloud dataflow flex-template run.
--additional-experiments=enable_lineage=true
Facoltativamente, puoi specificare uno o entrambi i seguenti parametri con l'opzione del servizio:
Specifica queste opzioni nel seguente modo:
Java
--dataflowServiceOptions=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Python
--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Vai
--dataflow_service_options=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
gcloud
--additional-experiments=enable_lineage=process_id=PROCESS_ID;process_name=DISPLAY_NAME
Visualizza la derivazione nel Catalogo universale Dataplex
La derivazione dei dati fornisce informazioni sulle relazioni tra le risorse del progetto e i processi che le hanno create. Puoi visualizzare le informazioni sulla derivazione dei dati nella console Google Cloud sotto forma di grafico o di singola tabella. Puoi anche recuperare le informazioni sulla derivazione dei dati dall'API Data Lineage sotto forma di dati JSON.
Per ulteriori informazioni, vedi Utilizzare la lineage dei dati con i sistemi Google Cloud Platform.
Disabilita la derivazione dei dati in Dataflow
Se la derivazione dei dati è attivata per un job specifico e vuoi disattivarla, annulla il job esistente ed esegui una nuova versione del job senza l'opzione di servizio enable_lineage.
Fatturazione
L'utilizzo della derivazione dei dati in Dataflow non influisce sulla fattura di Dataflow, ma potrebbe comportare addebiti aggiuntivi sulla fattura di Dataplex Universal Catalog. Per saperne di più, consulta Considerazioni sulla derivazione dei dati e Prezzi di Dataplex Universal Catalog.