El linaje de datos es un mapa visual que monitoriza todo el ciclo de vida de los datos. Te muestra de dónde proceden tus datos (el origen), por dónde se desplazan (los destinos) y todos los cambios o transformaciones que se producen por el camino.
Puedes ver este mapa completo del recorrido de tus datos directamente en laGoogle Cloud consola de los recursos creados en productos como Dataplex Universal Catalog, BigQuery y Vertex AI. Si eres un usuario avanzado, también puedes obtener esta información mediante la API Data Lineage.
Por qué necesitas el linaje de datos
Las empresas modernas mueven y cambian grandes cantidades de datos constantemente. Por ejemplo, transformar las compras de los clientes sin procesar en informes, paneles de control y modelos de aprendizaje automático. Esta complejidad plantea retos cruciales para tu equipo:
Confianza y verificación: los usuarios de datos suelen tener dificultades para confirmar que los informes y las cifras que ven son precisos y proceden de una fuente de confianza.
Solución de problemas: cuando aparece un error en un informe final, a los equipos de datos les puede resultar difícil y llevarles mucho tiempo rastrear el problema en cada paso hasta llegar a la causa raíz.
Gestión de cambios: antes de cambiar o eliminar un dato (como una columna de una tabla), los equipos deben saber qué informes o modelos posteriores dependen de él para evitar que se produzcan fallos en sistemas críticos.
Cumplimiento: los líderes necesitan visibilidad sobre cómo se usan los datos sensibles (como la información de los clientes o la información financiera) en toda la organización para cumplir los requisitos normativos.
El linaje de datos resuelve estos problemas proporcionando un recorrido claro, visual y documentado de los datos. Esto le permite comprender rápidamente las fuentes de datos, rastrear errores, evaluar el impacto de los cambios y mantener el cumplimiento.
Flujo de trabajo de linaje de datos
El flujo de trabajo del linaje de datos incluye los siguientes pasos:
Fuentes de datos e ingestión: la información de linaje de tus fuentes de datos inicia todo el proceso. Para obtener más información, consulta Fuentes de linaje.
Google Cloud Servicios: cuando la API Data Lineage está habilitada, los servicios compatibles, como BigQuery y Dataflow, registran automáticamente eventos de linaje cada vez que se mueven o transforman datos.
Fuentes personalizadas: en el caso de los sistemas que no sean compatibles automáticamente con lasGoogle Cloud integraciones, puede usar la API Data Lineage para registrar manualmente la información de linaje. Le recomendamos que importe los eventos con el formato del estándar OpenLineage.
Plataforma de linaje: esta plataforma central ingiere, modeliza y almacena todos los datos de linaje. Para obtener más información, consulta Modelo de información y granularidad del linaje.
API Data Lineage: esta API actúa como punto de entrada único para toda la información de linaje entrante. Utiliza un modelo de datos jerárquico que consta de tres conceptos principales: proceso, ejecución y evento.
Procesamiento y almacenamiento: la plataforma procesa los datos entrantes y los almacena en bases de datos fiables y optimizadas para consultas.
Experiencia de usuario: puedes interactuar con la información de linaje almacenada de dos formas principales:
Exploración visual: en la Google Cloud consola, un servicio frontend obtiene y representa los datos de linaje como un gráfico o una lista interactivos. Esta función se admite en Universal Catalog de Dataplex, BigQuery y Vertex AI (para modelos, conjuntos de datos, vistas de almacén de características y grupos de características). Es ideal para explorar visualmente el recorrido de tus datos. Para obtener más información, consulta Vistas de linaje en la consola de Google Cloud .
Acceso programático: mediante un cliente de la API, puedes comunicarte directamente con la API Data Lineage para automatizar la gestión del linaje. Esto te permite escribir información de linaje de fuentes personalizadas. También te permite leer y consultar los datos de linaje almacenados para usarlos en otras aplicaciones o para crear informes personalizados.
Fuentes de linaje
Puede rellenar la información de linaje en Dataplex Universal Catalog de las siguientes formas:
- Automáticamente desde servicios Google Cloud integrados
- Manualmente, mediante la API Data Lineage para fuentes personalizadas
- Importando eventos de OpenLineage
Seguimiento automatizado del linaje de datos
Cuando habilitas la API Data Lineage, Google Cloud los sistemas que admiten el linaje de datos empiezan a registrar sus movimientos de datos. Cada sistema integrado puede enviar información de linaje de un intervalo diferente de fuentes de datos.
BigQuery
Cuando habilitas el linaje de datos en tu proyecto de BigQuery, Dataplex Universal Catalog registra automáticamente la información del linaje de lo siguiente:
Nuevas tablas creadas como resultado de los siguientes trabajos de BigQuery:
- Tareas de copia
- Tareas de carga que usan un URI de Cloud Storage
- Las tareas de consulta que usan el siguiente lenguaje de definición de datos (DDL) en GoogleSQL:
Tablas cuando usas las siguientes instrucciones del lenguaje de manipulación de datos (DML) en GoogleSQL:
SELECTen relación con cualquiera de los tipos de tabla que se indican a continuación:INSERT SELECTMERGEUPDATEDELETE
Las tareas de copia, consulta y carga de BigQuery se representan como procesos.
Para ver los detalles del proceso, en el gráfico de linaje, haz clic en
.
Cada proceso contiene el job_id de BigQuery en la lista attributes del trabajo de BigQuery más reciente.
Otros servicios
El linaje de datos admite la integración con los siguientes servicios deGoogle Cloud :
Linaje de datos de fuentes de datos personalizadas
Puede usar la API Data Lineage para registrar manualmente información de linaje de cualquier fuente de datos que no sea compatible con los sistemas integrados.
Dataplex Universal Catalog puede crear gráficos de linaje para el linaje registrado manualmente si usas un fullyQualifiedName que coincida con los nombres completos de las entradas de Dataplex Universal Catalog. Si quieres registrar el linaje de una fuente de datos personalizada, primero debes crear una entrada personalizada.
Cada proceso de una fuente de datos personalizada puede contener una clave sql en la lista de atributos. El valor de esta clave se usa para renderizar un resaltado de código en el panel de detalles del gráfico de linaje de datos. La instrucción SQL se muestra tal como se ha proporcionado. Eres responsable de filtrar la información sensible. En el nombre de la clave sql se distingue entre mayúsculas y minúsculas.
OpenLineage
Si ya usa OpenLineage para recoger información de linaje de otras fuentes de datos, puede importar eventos de OpenLineage a Universal Catalog de Dataplex y verlos en la consola Google Cloud . Para obtener más información, consulta Integrar con OpenLineage.
Limitaciones
Estas son las limitaciones del linaje de datos:
Toda la información de linaje se conserva en el sistema durante 30 días.
La información de linaje se conserva después de eliminar la fuente de datos relacionada. Por ejemplo, si eliminas una tabla de BigQuery, puedes ver su linaje a través de la API y de la consola durante un máximo de 30 días.
El linaje de datos no registra automáticamente la información de linaje directo de las rutinas de BigQuery. Si se usa una rutina en una consulta, el linaje de datos registra el linaje entre las tablas que lee la rutina como dependencias de las tablas que escribe la consulta.
Limitaciones del linaje a nivel de columna
El linaje a nivel de columna tiene las siguientes limitaciones adicionales:
El linaje a nivel de columna no se recoge en las tareas de carga de BigQuery ni en las rutinas.
El linaje a nivel de columna de origen no se recoge en las tablas externas.
El linaje a nivel de columna no se recoge si un trabajo crea más de 1500 enlaces a nivel de columna. En estos casos, solo se recoge el linaje a nivel de tabla.
No hay ninguna API para crear, leer, actualizar, eliminar o buscar linaje a nivel de columna.
La compatibilidad con las tablas con particiones es limitada, ya que las columnas de partición como
_PARTITIONDATEy_PARTITIONTIMEno se reconocen en el gráfico de linaje.Limitaciones de la consola:
El recorrido del gráfico de linaje está limitado a una profundidad de 20 niveles y a 10.000 enlaces en cada dirección.
El linaje a nivel de columna solo se obtiene de la región en la que se encuentra la tabla raíz. No se admite el linaje entre regiones en la vista de gráfico.
Precios
Dataplex Universal Catalog usa la SKU de procesamiento premium para cobrar por el linaje de datos. Para obtener más información, consulta los precios.
Para separar los cargos de linaje de datos de otros cargos en el SKU de procesamiento premium de Universal Catalog de Dataplex, en el informe de facturación de Cloud, utilice la etiqueta
goog-dataplex-workload-typecon el valorLINEAGE.Si llamas a la API Data Lineage
OriginsourceTypecon un valor distinto deCUSTOM, se aplican costes adicionales.
Siguientes pasos
Consulta cómo hacer un seguimiento del linaje de datos de una copia de tabla de BigQuery y de trabajos de consulta.
Consulta cómo usar el linaje de datos con Google Cloud sistemas.
Consulta información sobre las vistas de linaje en la Google Cloud consola.
Consulta la API Data Lineage.
Para obtener información administrativa, consulta Consideraciones sobre el linaje y Registro de auditoría del linaje de datos.