En este documento, se proporciona información sobre el cumplimiento y las limitaciones del linaje de datos. El linaje de datos se habilita por proyecto, no por sistema. Esto significa que, después de habilitar la API de Data Lineage, la información de linaje se puede informar automáticamente para varios sistemas en el proyecto, según el control de linaje a nivel del producto de cada sistema.
El seguimiento automático del linaje es compatible con los siguientes sistemas:
| Sistema | Controles de linaje disponibles |
|---|---|
| BigQuery, Cloud Data Fusion |
No hay capacidad de configuración para restringir el seguimiento del linaje solo a Cloud Data Fusion o BigQuery cuando la API de Data Lineage está habilitada en un proyecto. |
| Managed Service para Apache Airflow | Managed Airflow usa el control de integración de linaje de datos a nivel del entorno El linaje de datos se habilita automáticamente para todos los entornos nuevos de Managed Airflow, siempre que cumplan los requisitos. Consulta Linaje de datos con Knowledge Catalog (antes Dataplex Universal Catalog) para obtener más información. En el caso de los entornos existentes, puedes habilitar o inhabilitar la integración del linaje de datos en la configuración del entorno. |
| Dataflow | Los trabajos de Dataflow pueden capturar eventos de linaje y publicarlos en la API de Data Lineage. Consulta Usar el linaje de datos en Dataflow para obtener más información. |
| Managed Service para Apache Spark | Los trabajos de Managed Service para Apache Spark pueden capturar eventos de linaje y publicarlos en la API de Data Lineage. Consulta Integración de Managed Service para Apache Spark con linaje de datos para obtener más información. |
| Looker (Google Cloud core) (vista previa) | Los metadatos de Looker (Google Cloud core) de fuentes de BigQuery se pueden visualizar con el linaje de datos. El linaje de datos debe habilitarse a nivel del recurso de Looker (Google Cloud core) y a nivel del servicio de linaje de datos. Consulta Realiza un seguimiento del linaje de datos con Knowledge Catalog para obtener más información. |
| Vertex AI | El linaje de datos se habilita automáticamente para los artefactos y parámetros de Vertex AI, como modelos, conjuntos de datos, plantillas de canalización y componentes. El linaje de una canalización incluye los factores que contribuyeron a su creación, así como los artefactos y los metadatos derivados posteriormente. Consulta Realiza un seguimiento del linaje de artefactos de canalización para obtener más información. |
Impacto en la facturación
Cuando habilites la API de Data Lineage en un proyecto, revisa el impacto en tus cargos de facturación, ya que la API de Data Lineage se habilita por proyecto (consulta la sección anterior para obtener más detalles). Para obtener más información sobre cómo se cobra el linaje de datos, consulta Precios de Knowledge Catalog.
En el caso de BigQuery Omni, el procesamiento de linaje se distribuye a regiones específicas y los costos dependen de las regiones en las que se realiza el procesamiento.
Cumplimiento del linaje de datos
- El linaje de datos registra metadatos sobre el movimiento de datos, pero no captura los datos en sí. Consulta el modelo de información de linaje de datos y la referencia de la API de Data Lineage para obtener detalles sobre qué campos se incluyen en los metadatos.
- El linaje de datos como parte de Knowledge Catalog ofrece compatibilidad con VPC-SC.
- Knowledge Catalog no ofrece la capacidad de usar claves de encriptación administradas por el cliente para proteger los metadatos de linaje recopilados.
Limitaciones del linaje de datos
Cuando seleccionas un nodo en el gráfico de linaje, el panel lateral de detalles del nodo estará vacío en los siguientes casos:
- el recurso se encuentra en otra organización
- el usuario no es miembro de la organización que aloja el recurso