El linaje de datos es un mapa visual que hace un seguimiento de todo el ciclo de vida de tus datos. Te muestra de dónde provienen tus datos (el origen), a dónde viajan (los destinos) y todos los cambios o transformaciones que ocurren en el camino.
Puedes ver este mapa completo del recorrido de tus datos directamente en la Google Cloud consola para los recursos creados en productos como Knowledge Catalog (anteriormente Dataplex Universal Catalog), BigQuery (incluidas las tablas externas creadas para el catálogo de REST de Iceberg) y Vertex AI. Los usuarios avanzados también pueden recuperar esta información con la API de Data Lineage.
Por qué necesitas el linaje de datos
Las empresas modernas mueven y cambian grandes cantidades de datos de forma constante. Por ejemplo, transforman las compras de clientes sin procesar en informes, paneles y modelos de aprendizaje automático. Esta complejidad crea desafíos críticos para tu equipo:
Confianza y verificación: Los usuarios de datos suelen tener dificultades para confirmar que los informes y los números que ven son precisos y provienen de una fuente confiable.
Solución de problemas: Cuando aparece un error en un informe final, los equipos de datos pueden tener dificultades y tardar mucho tiempo en rastrear el problema en cada paso hasta su causa raíz.
Administración de cambios: Antes de cambiar o borrar un dato (como una columna en una tabla), los equipos deben conocer todos los informes o modelos descendentes que dependen de él para evitar interrumpir los sistemas críticos.
Cumplimiento: Los líderes necesitan visibilidad sobre cómo se usan los datos sensibles (como la información financiera o de los clientes) en toda la organización para cumplir con los requisitos reglamentarios.
El linaje de datos resuelve estos problemas, ya que proporciona un recorrido claro, visual y documentado de tus datos. Esto te permite comprender rápidamente las fuentes de datos, rastrear errores, evaluar el impacto de los cambios y mantener el cumplimiento.
Flujo de trabajo del linaje de datos
El flujo de trabajo del linaje de datos incluye los siguientes pasos:
Fuentes de datos y transferencia: La información de linaje de tus fuentes de datos inicia todo el proceso. Para obtener más información, consulta Fuentes de linaje.
Google Cloud servicios: Cuando se habilita la API de Data Lineage, los servicios compatibles, como BigQuery y Dataflow, informan automáticamente los eventos de linaje cada vez que se mueven o transforman los datos.
Fuentes personalizadas: Para cualquier sistema que no sea compatible automáticamente con Google Cloud las integraciones, puedes usar la API de Data Lineage para registrar manualmente la información de linaje. Te recomendamos que importes eventos con el formato según el estándar de OpenLineage.
Plataforma de linaje: Esta plataforma central transfiere, modela y almacena todos los datos de linaje. Para obtener más información, consulta Modelo de información de linaje y granularidad.
API de Data Lineage: Esta API actúa como el único punto de entrada para toda la información de linaje entrante. Usa un modelo de datos jerárquico que consta de tres conceptos principales: proceso, ejecución y evento.
Procesamiento y almacenamiento: La plataforma procesa los datos entrantes y los almacena en bases de datos confiables y optimizadas para consultas.
Experiencia del usuario: Puedes interactuar con la información de linaje almacenada de dos maneras principales:
Exploración visual: En la Google Cloud consola de, un servicio de frontend recupera y renderiza los datos de linaje como un gráfico o una lista interactivos. Esto es compatible con Knowledge Catalog, BigQuery, lakehouse (para tablas del catálogo de REST de Iceberg), capa física (Cloud Storage) y Vertex AI (para modelos, conjuntos de datos, a través de canalizaciones, y vistas de Feature Store y grupos de atributos). Esto es ideal para explorar visualmente el recorrido de tus datos. Para obtener más información, consulta Vistas de linaje en la Google Cloud consola.
Acceso programático: Con un cliente de API, puedes comunicarte directamente con la API de Data Lineage para automatizar la administración de linaje. Esto te permite escribir información de linaje desde fuentes personalizadas. También te permite leer y consultar los datos de linaje almacenados para usarlos en otras aplicaciones o para compilar informes personalizados.
Fuentes de linaje
Puedes propagar información de linaje en Knowledge Catalog de las siguientes maneras:
- Automáticamente desde serviciosintegrados Google Cloud
- Manualmente, con la API de Data Lineage para fuentes personalizadas
- Importando eventos desde OpenLineage
BigQuery
Cuando habilitas el linaje de datos en tu proyecto de BigQuery, Knowledge Catalog registra automáticamente la información de linaje para lo siguiente:
Nuevas tablas creadas como resultado de los siguientes trabajos de BigQuery:
- Trabajos de copia
- Trabajos de carga que usan un URI de Cloud Storage
- Trabajos de consulta que usan el siguiente lenguaje de definición de datos (DDL) en GoogleSQL:
Tablas existentes cuando usas las siguientes instrucciones del lenguaje de manipulación de datos (DML) en GoogleSQL:
SELECTen relación con cualquiera de los tipos de tablas enumerados:INSERT SELECTMERGEUPDATEDELETE
Los trabajos de copia, consulta y carga de BigQuery se representan como procesos.
Para ver los detalles del proceso, en el gráfico de linaje, haz clic en el ícono Detalles del proceso
.
Cada proceso contiene el job_id de BigQuery en la lista de atributos del trabajo de BigQuery más reciente.
Otros servicios
El linaje de datos admite la integración con los siguientes Google Cloud servicios:
Lakehouse para tablas del catálogo de REST de Iceberg
Linaje de datos para fuentes de datos personalizadas
Puedes usar la API de Data Lineage para registrar manualmente la información de linaje de cualquier fuente de datos que no admitan los sistemas integrados.
Knowledge Catalog puede crear gráficos de linaje para el linaje registrado manualmente
si usas un
fullyQualifiedName que coincida con los nombres completamente
calificados de las entradas existentes de Knowledge Catalog. Si deseas registrar
el linaje de una fuente de datos personalizada, primero debes crear una
entrada personalizada.
Cada proceso para una fuente de datos personalizada puede contener una clave sql en la lista de atributos. El valor de esta clave se usa para renderizar un resaltado de código en el panel de detalles del gráfico de linaje de datos. La instrucción de SQL se muestra tal como se proporcionó. Tu objetivo es filtrar la información sensible. En el nombre de clave sql, se distinguen mayúsculas de minúsculas.
OpenLineage
Si ya usas OpenLineage para recopilar información de linaje de otras fuentes de datos, puedes importar eventos de OpenLineage a Knowledge Catalog y verlos en la Google Cloud consola. Para obtener más información, consulta Integración con OpenLineage.
Seguimiento automatizado del linaje de datos
Cuando habilitas la API de Data Lineage, Google Cloud los sistemas que admiten el linaje de datos comienzan a informar su movimiento de datos. Cada sistema integrado puede enviar información de linaje para un rango diferente de fuentes de datos.
Controla la transferencia de linaje
Puedes controlar qué Google Cloud servicios generan datos de linaje habilitando o inhabilitando la transferencia de linaje para integraciones específicas. Puedes controlar la transferencia de linaje a nivel de la organización, la carpeta y el proyecto. Durante la vista previa, esta función admite la configuración de la transferencia de linaje solo para Managed Service para Apache Spark. Si inhabilitas la transferencia de linaje para Managed Service para Apache Spark, también se inhabilita la transferencia de linaje para Managed Service para Apache Spark.
Knowledge Catalog evalúa la jerarquía de recursos (primero el proyecto, luego las carpetas y, por último, la organización) para determinar la configuración efectiva. La primera configuración establecida de forma explícita en cualquier nivel de este recorrido ascendente entra en vigencia.
- Si estableces una configuración a nivel del proyecto, Knowledge Catalog la usa.
- Si no se establece ninguna configuración a nivel del proyecto, Knowledge Catalog usa la configuración de la carpeta superior más cercana con una configuración explícita.
- Si no se establece ninguna configuración a nivel del proyecto o la carpeta, Knowledge Catalog usa la configuración a nivel de la organización.
- Si no se establece ninguna configuración en ninguno de estos niveles, Knowledge Catalog usa el valor predeterminado del sistema para la integración. El valor predeterminado para la configuración de habilitación de linaje puede ser Habilitado o Inhabilitado. Para Managed Service para Apache Spark, la transferencia de linaje está Habilitada de forma predeterminada cuando la API de Data Lineage está activa.
Por ejemplo, considera una organización test-org con las siguientes configuraciones de linaje de Managed Service para Apache Spark:
- Organización
test-org: Habilitada- Carpeta
folder-a: Inhabilitada- Proyecto
project-a: No se estableció ninguna configuración
- Proyecto
- Carpeta
folder-b: Habilitada- Proyecto
project-b: Inhabilitada
- Proyecto
- Carpeta
En esta situación, se aplican los siguientes parámetros de configuración:
- Para
project-a, la transferencia de linaje está Inhabilitada. Knowledge Catalog comienza a evaluar desdeproject-a, no encuentra ninguna configuración, sube afolder-ay aplica la configuración Inhabilitada defolder-a. - Para
project-b, la transferencia de linaje está Inhabilitada. Knowledge Catalog comienza a evaluar desdeproject-by aplica su configuración Inhabilitada, lo que anula la configuración enfolder-bytest-org.
Controlar la generación de datos de linaje te ayuda a administrar los costos y las políticas de administración. Por ejemplo, puedes inhabilitar la recopilación de linaje para proyectos de desarrollo o cargas de trabajo de gran volumen que no requieren seguimiento de linaje.
Para obtener información sobre cómo configurar y controlar la transferencia de linaje, consulta Controla la transferencia de linaje para un servicio.
Limitaciones
El linaje de datos tiene las siguientes limitaciones:
Toda la información de linaje se retiene en el sistema durante solo 30 días.
La información de linaje persiste después de borrar la fuente de datos relacionada. Por ejemplo, si borras una tabla de BigQuery, puedes seguir viendo su linaje a través de la API y la consola durante un máximo de 30 días.
El linaje de datos no registra automáticamente la información de linaje directo para las rutinas de BigQuery. Si se usa una rutina en una consulta, el linaje de datos registra el linaje entre las tablas que lee la rutina como dependencias de las tablas que escribe la consulta.
Limitaciones del linaje a nivel de columna
El linaje a nivel de columna tiene las siguientes limitaciones adicionales:
No se recopila el linaje a nivel de columna para los trabajos de carga de BigQuery ni para las rutinas.
No se recopila el linaje ascendente a nivel de columna para las tablas externas.
No se recopila el linaje a nivel de columna si un trabajo crea más de 1,500 vínculos a nivel de columna. En estos casos, solo se recopila el linaje a nivel de la tabla.
No hay una API para crear, leer, actualizar, borrar ni buscar linaje a nivel de columna.
La compatibilidad con tablas particionadas es limitada, ya que las columnas de partición, como
_PARTITIONDATEy_PARTITIONTIME, no se reconocen en el gráfico de linaje.Limitaciones de la consola:
El recorrido del gráfico de linaje se limita a una profundidad de 20 niveles y 10,000 vínculos en cada dirección.
El linaje a nivel de columna solo se recupera de la región en la que se encuentra la tabla raíz. No hay compatibilidad con el linaje interregional en la vista de gráfico.
Precios
Knowledge Catalog usa el SKU de procesamiento premium para cobrar el linaje de datos. Para obtener más información, consulta Precios.
Para separar los cargos de linaje de datos de otros cargos en el SKU de procesamiento premium de Knowledge Catalog, en el informe de Facturación de Cloud, usa la etiqueta
goog-dataplex-workload-typecon el valorLINEAGE.Si llamas a la API de Data Lineage
OriginsourceTypecon un valor que no seaCUSTOM, se generan costos adicionales.
¿Qué sigue?
Aprende a usar el linaje de datos con Google Cloud sistemas.
Obtén información sobre las vistas de linaje en la consola de. Google Cloud
Explora la API de Data Lineage.
Para obtener información administrativa, consulta Consideraciones sobre el linaje y registro de auditoría del linaje de datos.