Questo documento spiega come integrare OpenLineage con Knowledge Catalog (in precedenza Dataplex Universal Catalog) per visualizzare i dati di derivazione di vari sistemi.
Panoramica
OpenLineage è una piattaforma aperta per la raccolta e l'analisi delle informazioni sulla derivazione dei dati. Utilizzando uno standard aperto per i dati di derivazione, OpenLineage acquisisce gli eventi di derivazione dai componenti della pipeline di dati che utilizzano un'API OpenLineage per generare report su esecuzioni, job e set di dati.
Tramite l'API Data Lineage, puoi importare eventi OpenLineage da visualizzare nell'interfaccia web di Knowledge Catalog insieme alle informazioni sulla derivazione di serviziGoogle Cloud , come BigQuery, Managed Service for Apache Airflow, Cloud Data Fusion e Managed Service for Apache Spark.
Per importare eventi OpenLineage che utilizzano la
specifica OpenLineage,
utilizza il
metodo API REST
ProcessOpenLineageRunEvent
e mappa le sfaccettature OpenLineage agli attributi dell'API Data Lineage.
Limitazioni
L'API Data Lineage supporta la versione principale 1 di OpenLineage.
L'endpoint API Data Lineage
ProcessOpenLineageRunEventfunge solo da consumer dei messaggi OpenLineage, non da producer. L'API consente di inviare a Knowledge Catalog le informazioni sulla derivazione generate da qualsiasi strumento o sistema conforme a OpenLineage. Alcuni servizi Google Cloud , come Managed Service for Apache Spark e Managed Airflow, includono produttori OpenLineage integrati che possono inviare eventi a questo endpoint, automatizzando l'acquisizione della derivazione da questi servizi.L'API Data Lineage non supporta quanto segue:
- Qualsiasi release successiva di OpenLineage con modifiche al formato del messaggio
DatasetEventJobEvent
La dimensione massima di un singolo messaggio è di 5 MB.
La lunghezza di ogni nome completo negli input e negli output è limitata a 4000 caratteri.
I link sono raggruppati per eventi, con un massimo di 100 link per evento. Il numero aggregato massimo di link a livello di tabella è 1000. Se un messaggio contiene più di 1500 link a livello di colonna, le informazioni a livello di colonna vengono ignorate.
Knowledge Catalog mostra un grafico della derivazione per ogni esecuzione del job, mostrando gli input e gli output degli eventi di derivazione. Non supporta processi di livello inferiore come le fasi di Spark.
Mappatura OpenLineage
Per informazioni sulla mappatura di OpenLineage, vedi Mappatura di OpenLineage.
Importare un evento OpenLineage
Se non hai ancora configurato OpenLineage, consulta la sezione Guida introduttiva.
Per importare un evento OpenLineage in Knowledge Catalog, chiama il metodo dell'API REST
ProcessOpenLineageRunEvent:
POST https://datalineage.googleapis.com/v1/projects/{project}/locations/{location}:processOpenLineageRunEvent \
--data '{"eventTime":"2023-04-04T13:21:16.098Z","eventType":"COMPLETE","inputs":[{"name":"somename","namespace":"somenamespace"}],"job":{"name":"somename","namespace":"somenamespace"},"outputs":[{"name":"somename","namespace":"somenamespace"}],"producer":"someproducer","run":{"runId":"somerunid"},"schemaURL":"https://openlineage.io/spec/1-0-5/OpenLineage.json#/$defs/RunEvent"}'
Strumenti per l'invio di messaggi OpenLineage
Per semplificare l'invio di eventi all'API Data Lineage, puoi utilizzare vari strumenti e librerie:
- Libreria di produzione Java di Google Cloud:Google fornisce una libreria Java open source per creare e inviare eventi OpenLineage all'API Data Lineage. Per saperne di più, consulta il post del blog La libreria Java Producer per Data Lineage è ora open source. La libreria è disponibile su GitHub e Maven.
- Trasporto OpenLineage GCP:per i produttori OpenLineage basati su Java, è disponibile un
trasporto GcpLineage
dedicato. Semplifica l'integrazione con l'API Data Lineage riducendo al minimo il codice necessario per inviare eventi all'API Data Lineage.
GcpLineageTransportpuò essere configurato come sink di eventi per qualsiasi produttore OpenLineage esistente, come Airflow, Spark e Flink. Per ulteriori informazioni ed esempi, consulta GcpLineage.
Analizzare le informazioni di OpenLineage
Per analizzare gli eventi OpenLineage importati, vedi Visualizzare i grafici di derivazione nella UI di Knowledge Catalog.
Dati archiviati
L'API Data Lineage non archivia tutti i dati delle sfaccettature dei messaggi OpenLineage. L'API Data Lineage archivia i seguenti campi delle sfaccettature:
spark_versionopenlineage-spark-versionspark-version
- tutti
spark.logicalPlan.* environment-properties(sfaccettatura della derivazione personalizzata)- Google Cloud
origin.sourcetypeeorigin.namespark.app.idspark.app.namespark.batch.idspark.batch.uuidspark.cluster.namespark.cluster.regionspark.job.idspark.job.uuidspark.project.idspark.query.node.namespark.session.idspark.session.uuid
L'API Data Lineage archivia le seguenti informazioni:
eventTimerun.runIdjob.namespacejob.name
Passaggi successivi
- Dai un'occhiata alle integrazioni di Managed Service for Apache Spark Serverless e Managed Service for Apache Spark Hive.
- Provalo in un lab interattivo: Acquisizione ed esplorazione degli aggiornamenti dei dati con la lineage dei dati e OpenLineage