Integración con OpenLineage

En este documento, se explica cómo integrar OpenLineage con Dataplex Universal Catalog para visualizar los datos de linaje de varios sistemas.

Descripción general

OpenLineage es una plataforma abierta para recopilar y analizar información sobre el linaje de datos. OpenLineage, que usa un estándar abierto para los datos de linaje, captura eventos de linaje de los componentes de la canalización de datos que usan una API de OpenLineage para informar sobre ejecuciones, trabajos y conjuntos de datos.

A través de la API de Data Lineage, puedes importar eventos de OpenLineage para mostrarlos en la interfaz web de Dataplex Universal Catalog junto con la información de linaje de los servicios deGoogle Cloud , como BigQuery, Cloud Composer, Cloud Data Fusion y Dataproc.

Para importar eventos de OpenLineage que usan la especificación de OpenLineage, usa el método de la API de REST ProcessOpenLineageRunEvent y asigna facetas de OpenLineage a atributos de la API de Data Lineage.

Limitaciones

  • La API de Data Lineage admite la versión principal 1 de OpenLineage.

  • El extremo de API de Data Lineage ProcessOpenLineageRunEvent solo actúa como consumidor de mensajes de OpenLineage, no como productor. La API te permite enviar información de linaje generada por cualquier herramienta o sistema compatible con OpenLineage a Dataplex Universal Catalog. Algunos Google Cloud servicios, como Dataproc y Cloud Composer, incluyen productores integrados de OpenLineage que pueden enviar eventos a este extremo, lo que automatiza la captura del linaje de esos servicios.

  • La API de Data Lineage no admite lo siguiente:

    • Cualquier versión posterior de OpenLineage con cambios en el formato de los mensajes
    • DatasetEvent
    • JobEvent
  • El tamaño máximo de un solo mensaje es de 5 MB.

  • La longitud de cada nombre completo en las entradas y salidas se limita a 4,000 caracteres.

  • Los vínculos se agrupan por eventos con 100 vínculos. La cantidad máxima agregada de vínculos es 1,000.

  • Dataplex Universal Catalog muestra un gráfico de linaje para cada ejecución de trabajo, en el que se muestran las entradas y salidas de los eventos de linaje. No admite procesos de nivel inferior, como las etapas de Spark.

Asignación de OpenLineage

Para obtener información sobre la asignación de OpenLineage, consulta Asignación de OpenLineage.

Importa un evento de OpenLineage

Si aún no configuraste OpenLineage, consulta la sección Primeros pasos.

Para importar un evento de OpenLineage a Dataplex Universal Catalog, llama al método de la API de REST ProcessOpenLineageRunEvent:

POST https://datalineage.googleapis.com/v1/projects/{project}/locations/{location}:processOpenLineageRunEvent \
--data '{"eventTime":"2023-04-04T13:21:16.098Z","eventType":"COMPLETE","inputs":[{"name":"somename","namespace":"somenamespace"}],"job":{"name":"somename","namespace":"somenamespace"},"outputs":[{"name":"somename","namespace":"somenamespace"}],"producer":"someproducer","run":{"runId":"somerunid"},"schemaURL":"https://openlineage.io/spec/1-0-5/OpenLineage.json#/$defs/RunEvent"}'

Herramientas para enviar mensajes de OpenLineage

Para simplificar el envío de eventos a la API de Data Lineage, puedes usar varias herramientas y bibliotecas:

  • Biblioteca de Java Producer de Google Cloud: Google proporciona una biblioteca de Java de código abierto para ayudar a construir y enviar eventos de OpenLineage a la API de Data Lineage. Para obtener más información, consulta la entrada de blog La biblioteca de Java del productor para Data Lineage ahora es de código abierto. La biblioteca está disponible en GitHub y Maven.
  • Transporte de OpenLineage para GCP: Para los productores de OpenLineage basados en Java, hay disponible un transporte de GcpLineage dedicado. Simplifica la integración con la API de Data Lineage, ya que minimiza el código necesario para enviar eventos a la API de Data Lineage. El GcpLineageTransport se puede configurar como el receptor de eventos para cualquier productor de OpenLineage existente, como Airflow, Spark y Flink. Para obtener más información y ejemplos, consulta GcpLineage.

Analiza la información de OpenLineage

Para analizar los eventos de OpenLineage importados, consulta Cómo ver gráficos de linaje en la IU de Dataplex Universal Catalog.

Datos almacenados

La API de Data Lineage no almacena todos los datos de las facetas de los mensajes de OpenLineage. La API de Data Lineage almacena los siguientes campos de facetas:

  • spark_version
    • openlineage-spark-version
    • spark-version
  • todos los spark.logicalPlan.*
  • environment-properties (faceta de linaje Google Cloud personalizada)
    • origin.sourcetype y origin.name
    • spark.app.id
    • spark.app.name
    • spark.batch.id
    • spark.batch.uuid
    • spark.cluster.name
    • spark.cluster.region
    • spark.job.id
    • spark.job.uuid
    • spark.project.id
    • spark.query.node.name
    • spark.session.id
    • spark.session.uuid

La API de Data Lineage almacena la siguiente información:

  • eventTime
  • run.runId
  • job.namespace
  • job.name

¿Qué sigue?