Integra con OpenLineage

Questo documento spiega come integrare OpenLineage con Knowledge Catalog (in precedenza Dataplex Universal Catalog) per visualizzare i dati di derivazione di vari sistemi.

Panoramica

OpenLineage è una piattaforma aperta per la raccolta e l'analisi delle informazioni sulla derivazione dei dati. Utilizzando uno standard aperto per i dati di derivazione, OpenLineage acquisisce gli eventi di derivazione dai componenti della pipeline di dati che utilizzano un'API OpenLineage per generare report su esecuzioni, job e set di dati.

Tramite l'API Data Lineage, puoi importare eventi OpenLineage da visualizzare nell'interfaccia web di Knowledge Catalog insieme alle informazioni sulla derivazione di serviziGoogle Cloud , come BigQuery, Managed Service for Apache Airflow, Cloud Data Fusion e Managed Service for Apache Spark.

Per importare eventi OpenLineage che utilizzano la specifica OpenLineage, utilizza il metodo API REST ProcessOpenLineageRunEvent e mappa le sfaccettature OpenLineage agli attributi dell'API Data Lineage.

Limitazioni

  • L'API Data Lineage supporta la versione principale 1 di OpenLineage.

  • L'endpoint API Data Lineage ProcessOpenLineageRunEvent funge solo da consumer dei messaggi OpenLineage, non da producer. L'API consente di inviare a Knowledge Catalog le informazioni sulla derivazione generate da qualsiasi strumento o sistema conforme a OpenLineage. Alcuni servizi Google Cloud , come Managed Service for Apache Spark e Managed Airflow, includono produttori OpenLineage integrati che possono inviare eventi a questo endpoint, automatizzando l'acquisizione della derivazione da questi servizi.

  • L'API Data Lineage non supporta quanto segue:

    • Qualsiasi release successiva di OpenLineage con modifiche al formato del messaggio
    • DatasetEvent
    • JobEvent
  • La dimensione massima di un singolo messaggio è di 5 MB.

  • La lunghezza di ogni nome completo negli input e negli output è limitata a 4000 caratteri.

  • I link sono raggruppati per eventi, con un massimo di 100 link per evento. Il numero aggregato massimo di link a livello di tabella è 1000. Se un messaggio contiene più di 1500 link a livello di colonna, le informazioni a livello di colonna vengono ignorate.

  • Knowledge Catalog mostra un grafico della derivazione per ogni esecuzione del job, mostrando gli input e gli output degli eventi di derivazione. Non supporta processi di livello inferiore come le fasi di Spark.

Mappatura OpenLineage

Per informazioni sulla mappatura di OpenLineage, vedi Mappatura di OpenLineage.

Importare un evento OpenLineage

Se non hai ancora configurato OpenLineage, consulta la sezione Guida introduttiva.

Per importare un evento OpenLineage in Knowledge Catalog, chiama il metodo dell'API REST ProcessOpenLineageRunEvent:

POST https://datalineage.googleapis.com/v1/projects/{project}/locations/{location}:processOpenLineageRunEvent \
--data '{"eventTime":"2023-04-04T13:21:16.098Z","eventType":"COMPLETE","inputs":[{"name":"somename","namespace":"somenamespace"}],"job":{"name":"somename","namespace":"somenamespace"},"outputs":[{"name":"somename","namespace":"somenamespace"}],"producer":"someproducer","run":{"runId":"somerunid"},"schemaURL":"https://openlineage.io/spec/1-0-5/OpenLineage.json#/$defs/RunEvent"}'

Strumenti per l'invio di messaggi OpenLineage

Per semplificare l'invio di eventi all'API Data Lineage, puoi utilizzare vari strumenti e librerie:

  • Libreria di produzione Java di Google Cloud:Google fornisce una libreria Java open source per creare e inviare eventi OpenLineage all'API Data Lineage. Per saperne di più, consulta il post del blog La libreria Java Producer per Data Lineage è ora open source. La libreria è disponibile su GitHub e Maven.
  • Trasporto OpenLineage GCP:per i produttori OpenLineage basati su Java, è disponibile un trasporto GcpLineage dedicato. Semplifica l'integrazione con l'API Data Lineage riducendo al minimo il codice necessario per inviare eventi all'API Data Lineage. GcpLineageTransport può essere configurato come sink di eventi per qualsiasi produttore OpenLineage esistente, come Airflow, Spark e Flink. Per ulteriori informazioni ed esempi, consulta GcpLineage.

Analizzare le informazioni di OpenLineage

Per analizzare gli eventi OpenLineage importati, vedi Visualizzare i grafici di derivazione nella UI di Knowledge Catalog.

Dati archiviati

L'API Data Lineage non archivia tutti i dati delle sfaccettature dei messaggi OpenLineage. L'API Data Lineage archivia i seguenti campi delle sfaccettature:

  • spark_version
    • openlineage-spark-version
    • spark-version
  • tutti spark.logicalPlan.*
  • environment-properties (sfaccettatura della derivazione personalizzata)
      Google Cloud
    • origin.sourcetype e origin.name
    • spark.app.id
    • spark.app.name
    • spark.batch.id
    • spark.batch.uuid
    • spark.cluster.name
    • spark.cluster.region
    • spark.job.id
    • spark.job.uuid
    • spark.project.id
    • spark.query.node.name
    • spark.session.id
    • spark.session.uuid

L'API Data Lineage archivia le seguenti informazioni:

  • eventTime
  • run.runId
  • job.namespace
  • job.name

Passaggi successivi