Acerca del linaje de datos

El linaje de datos es un mapa visual que monitoriza todo el ciclo de vida de los datos. Te muestra de dónde proceden tus datos (el origen), por dónde se desplazan (los destinos) y todos los cambios o transformaciones que se producen por el camino.

Puedes ver este mapa completo del recorrido de tus datos directamente en laGoogle Cloud consola de los recursos creados en productos como Dataplex Universal Catalog, BigQuery y Vertex AI. Si eres un usuario avanzado, también puedes obtener esta información mediante la API Data Lineage.

Por qué necesitas el linaje de datos

Las empresas modernas mueven y cambian grandes cantidades de datos constantemente. Por ejemplo, transformar las compras de los clientes sin procesar en informes, paneles de control y modelos de aprendizaje automático. Esta complejidad plantea retos cruciales para tu equipo:

  • Confianza y verificación: los usuarios de datos suelen tener dificultades para confirmar que los informes y las cifras que ven son precisos y proceden de una fuente de confianza.

  • Solución de problemas: cuando aparece un error en un informe final, a los equipos de datos les puede resultar difícil y llevarles mucho tiempo rastrear el problema en cada paso hasta llegar a la causa raíz.

  • Gestión de cambios: antes de cambiar o eliminar un dato (como una columna de una tabla), los equipos deben saber qué informes o modelos posteriores dependen de él para evitar que se produzcan fallos en sistemas críticos.

  • Cumplimiento: los líderes necesitan visibilidad sobre cómo se usan los datos sensibles (como la información de los clientes o la información financiera) en toda la organización para cumplir los requisitos normativos.

El linaje de datos resuelve estos problemas proporcionando un recorrido claro, visual y documentado de los datos. Esto le permite comprender rápidamente las fuentes de datos, rastrear errores, evaluar el impacto de los cambios y mantener el cumplimiento.

Flujo de trabajo de linaje de datos

El flujo de trabajo del linaje de datos incluye los siguientes pasos:

  1. Fuentes de datos e ingestión: la información de linaje de tus fuentes de datos inicia todo el proceso. Para obtener más información, consulta Fuentes de linaje.

    • Google Cloud Servicios: cuando la API Data Lineage está habilitada, los servicios compatibles, como BigQuery y Dataflow, registran automáticamente eventos de linaje cada vez que se mueven o transforman datos.

    • Fuentes personalizadas: en el caso de los sistemas que no sean compatibles automáticamente con lasGoogle Cloud integraciones, puede usar la API Data Lineage para registrar manualmente la información de linaje. Le recomendamos que importe los eventos con el formato del estándar OpenLineage.

  2. Plataforma de linaje: esta plataforma central ingiere, modeliza y almacena todos los datos de linaje. Para obtener más información, consulta Modelo de información y granularidad del linaje.

    • API Data Lineage: esta API actúa como punto de entrada único para toda la información de linaje entrante. Utiliza un modelo de datos jerárquico que consta de tres conceptos principales: proceso, ejecución y evento.

    • Procesamiento y almacenamiento: la plataforma procesa los datos entrantes y los almacena en bases de datos fiables y optimizadas para consultas.

  3. Experiencia de usuario: puedes interactuar con la información de linaje almacenada de dos formas principales:

    • Exploración visual: en la Google Cloud consola, un servicio frontend obtiene y representa los datos de linaje como un gráfico o una lista interactivos. Esta función se admite en Universal Catalog de Dataplex, BigQuery y Vertex AI (para modelos, conjuntos de datos, vistas de almacén de características y grupos de características). Es ideal para explorar visualmente el recorrido de tus datos. Para obtener más información, consulta Vistas de linaje en la consola de Google Cloud .

    • Acceso programático: mediante un cliente de la API, puedes comunicarte directamente con la API Data Lineage para automatizar la gestión del linaje. Esto te permite escribir información de linaje de fuentes personalizadas. También te permite leer y consultar los datos de linaje almacenados para usarlos en otras aplicaciones o para crear informes personalizados.

Fuentes de linaje

Puede rellenar la información de linaje en Dataplex Universal Catalog de las siguientes formas:

  • Automáticamente desde servicios Google Cloud integrados
  • Manualmente, mediante la API Data Lineage para fuentes personalizadas
  • Importando eventos de OpenLineage

Seguimiento automatizado del linaje de datos

Cuando habilitas la API Data Lineage, Google Cloud los sistemas que admiten el linaje de datos empiezan a registrar sus movimientos de datos. Cada sistema integrado puede enviar información de linaje de un intervalo diferente de fuentes de datos.

BigQuery

Cuando habilitas el linaje de datos en tu proyecto de BigQuery, Dataplex Universal Catalog registra automáticamente la información del linaje de lo siguiente:

Las tareas de copia, consulta y carga de BigQuery se representan como procesos.

Para ver los detalles del proceso, en el gráfico de linaje, haz clic en .

Cada proceso contiene el job_id de BigQuery en la lista attributes del trabajo de BigQuery más reciente.

Otros servicios

El linaje de datos admite la integración con los siguientes servicios deGoogle Cloud :

Linaje de datos de fuentes de datos personalizadas

Puede usar la API Data Lineage para registrar manualmente información de linaje de cualquier fuente de datos que no sea compatible con los sistemas integrados.

Dataplex Universal Catalog puede crear gráficos de linaje para el linaje registrado manualmente si usas un fullyQualifiedName que coincida con los nombres completos de las entradas de Dataplex Universal Catalog. Si quieres registrar el linaje de una fuente de datos personalizada, primero debes crear una entrada personalizada.

Cada proceso de una fuente de datos personalizada puede contener una clave sql en la lista de atributos. El valor de esta clave se usa para renderizar un resaltado de código en el panel de detalles del gráfico de linaje de datos. La instrucción SQL se muestra tal como se ha proporcionado. Eres responsable de filtrar la información sensible. En el nombre de la clave sql se distingue entre mayúsculas y minúsculas.

OpenLineage

Si ya usa OpenLineage para recoger información de linaje de otras fuentes de datos, puede importar eventos de OpenLineage a Universal Catalog de Dataplex y verlos en la consola Google Cloud . Para obtener más información, consulta Integrar con OpenLineage.

Limitaciones

Estas son las limitaciones del linaje de datos:

  • Toda la información de linaje se conserva en el sistema durante 30 días.

  • La información de linaje se conserva después de eliminar la fuente de datos relacionada. Por ejemplo, si eliminas una tabla de BigQuery, puedes ver su linaje a través de la API y de la consola durante un máximo de 30 días.

  • El linaje de datos no registra automáticamente la información de linaje directo de las rutinas de BigQuery. Si se usa una rutina en una consulta, el linaje de datos registra el linaje entre las tablas que lee la rutina como dependencias de las tablas que escribe la consulta.

Limitaciones del linaje a nivel de columna

El linaje a nivel de columna tiene las siguientes limitaciones adicionales:

  • El linaje a nivel de columna no se recoge en las tareas de carga de BigQuery ni en las rutinas.

  • El linaje a nivel de columna de origen no se recoge en las tablas externas.

  • El linaje a nivel de columna no se recoge si un trabajo crea más de 1500 enlaces a nivel de columna. En estos casos, solo se recoge el linaje a nivel de tabla.

  • No hay ninguna API para crear, leer, actualizar, eliminar o buscar linaje a nivel de columna.

  • La compatibilidad con las tablas con particiones es limitada, ya que las columnas de partición como _PARTITIONDATE y _PARTITIONTIME no se reconocen en el gráfico de linaje.

  • Limitaciones de la consola:

    • El recorrido del gráfico de linaje está limitado a una profundidad de 20 niveles y a 10.000 enlaces en cada dirección.

    • El linaje a nivel de columna solo se obtiene de la región en la que se encuentra la tabla raíz. No se admite el linaje entre regiones en la vista de gráfico.

Precios

  • Dataplex Universal Catalog usa la SKU de procesamiento premium para cobrar por el linaje de datos. Para obtener más información, consulta los precios.

  • Para separar los cargos de linaje de datos de otros cargos en el SKU de procesamiento premium de Universal Catalog de Dataplex, en el informe de facturación de Cloud, utilice la etiqueta goog-dataplex-workload-type con el valor LINEAGE.

  • Si llamas a la API Data Lineage Origin sourceType con un valor distinto de CUSTOM, se aplican costes adicionales.

Siguientes pasos