Usar el linaje de datos con sistemas de Google Cloud

El linaje de datos muestra las relaciones entre los recursos de tu proyecto y los procesos que los han creado.

Puede ver los detalles del linaje de datos en la Google Cloud consola o recuperarlos mediante la API Data Lineage.

En función del volumen de datos que se esté procesando, el linaje de datos tardará en mostrar un gráfico. La mayoría de los trabajos tardan tres horas, pero algunos pueden tardar hasta 24 horas.

El linaje se captura en todos los proyectos. Cuando ve el linaje generado a partir de varios proyectos, puede ver la información de linaje agregada en cualquiera de los proyectos pertinentes.

Roles y permisos

Para ver el linaje de datos, necesitas permisos específicos de gestión de identidades y accesos (IAM). La información de linaje se registra en todos los proyectos, por lo que necesitas permisos en varios proyectos.

  • Cuando veas el linaje en Dataplex Universal Catalog, BigQuery o Vertex AI, necesitarás permisos para ver la información del linaje en el proyecto en el que lo estés viendo.

  • Cuando veas el linaje registrado en otros proyectos, necesitarás permisos para ver la información del linaje en los proyectos en los que se haya registrado.

Para ver el linaje de datos, necesitas los siguientes roles o permisos. Asigna estos roles a la entidad principal (por ejemplo, el usuario o la cuenta de servicio) en los recursos pertinentes (por ejemplo, proyectos o tablas de BigQuery).

  • Lector de linaje de datos (roles/datalineage.viewer): otorga permiso para ver el linaje en la consola Google Cloud y usar la API Data Lineage. Debes aplicar este rol en los proyectos en los que se registra el linaje y en los proyectos en los que se consulta el linaje. Para obtener más información, consulta Tipos de proyectos.

  • Lector de Dataplex Universal Catalog (roles/dataplex.catalogViewer): otorga permiso para ver los metadatos de los recursos catalogados en Dataplex Universal Catalog. Concede este rol en los proyectos en los que se almacenan las entradas de catálogo para que los usuarios puedan ver los detalles de las entradas en el gráfico de linaje. También puede asignar el rol de lector en el sistema de origen. Para obtener más información, consulta Buscar recursos de datos con Dataplex Universal Catalog.

  • Otros permisos de BigQuery:

    • Para ver los detalles de los recursos de BigQuery en el gráfico de linaje, como las definiciones de tablas o las consultas de vistas, asigna el rol Lector de datos de BigQuery (roles/bigquery.dataViewer).
    • Para ver la consulta SQL de una tarea de BigQuery que ha generado linaje, concede el permiso bigquery.jobs.get. Este permiso se incluye en roles como Administrador de BigQuery (roles/bigquery.admin) y Lector de recursos de BigQuery (roles/bigquery.resourceViewer).

El linaje de datos registra la información de linaje automáticamente cuando habilita la API Data Lineage. No necesita ningún rol de administrador o editor para registrar el linaje de sus recursos de datos.

Para obtener más información sobre cómo conceder roles, consulta el artículo sobre cómo gestionar el acceso. Puedes asignar un rol a un nivel de carpeta u organización superior. Para obtener más información, consulta Asignar o revocar un solo rol.

Tipos de vistas de linaje de datos

Puede ver la información de linaje en forma de gráfico o de lista. De forma predeterminada, el gráfico de linaje muestra el linaje a nivel de tabla. En el caso de las tareas de BigQuery, puede ver el linaje a nivel de columna en las vistas de gráfico y de lista.

Están disponibles los siguientes tipos de vista:

  • Vista de gráfico: muestra el linaje como un gráfico interactivo que te permite explorar las relaciones entre los recursos de datos y las columnas expandiendo los nodos.

  • Vista de lista: muestra el linaje en formato tabular, lo que proporciona representaciones simplificadas y detalladas del linaje a nivel de tabla y de columna. Puedes personalizar las columnas y exportar los datos de linaje de esta vista.

Los elementos clave del gráfico se describen a continuación:

  • Nodos: representan las entidades de datos. En la vista de nivel de tabla, un nodo muestra el nombre de la tabla y sus columnas. En la vista de nivel de columna, cada nodo representa una tabla específica y sus columnas que tienen linaje.

  • Aristas: las líneas que conectan los nodos y representan los procesos que se producen entre ellos. Los bordes pueden incluir iconos o etiquetas para proporcionar más información sobre la transformación:

    • Icons en la vista de nivel de tabla, los iconos aparecen en los bordes para representar el proceso de transformación. Cuando exploras el grafo manualmente, los iconos de los bordes representan el sistema de origen del proceso (por ejemplo, BigQuery o Vertex AI). Si hay varios procesos implicados, se muestra el icono "Varios procesos". Si se desconoce el sistema de origen del proceso, se usa un icono de engranaje. Cuando aplicas filtros, se usa un icono de rueda dentada para todos los procesos.
    • Etiquetas: en la vista a nivel de columna, las aristas se etiquetan para describir el tipo de dependencia entre columnas, como Exact copy o Other.

Habilitar el linaje de datos

Habilita el linaje de datos para empezar a hacer un seguimiento automático de la información de linaje de los sistemas admitidos. Debe habilitar la API Data Lineage tanto en el proyecto en el que vea el linaje como en los proyectos en los que se registre el linaje. Para obtener más información, consulta Tipos de proyectos.

  1. Para obtener información sobre el linaje, sigue estos pasos:
    1. En la Google Cloud consola, en la página Selector de proyectos, selecciona el proyecto en el que quieras registrar el linaje.

      Ir al selector de proyectos

    2. Habilita la API Data Lineage.

      Habilitar la API Data Lineage

    3. Repite los pasos anteriores con cada proyecto en el que quieras registrar el linaje.
  2. En el proyecto en el que quieras ver el linaje, habilita la API Data Lineage y la API Dataplex.

    Habilitar las APIs

Ver el linaje en Dataplex Universal Catalog

Puede ver la información del linaje de datos en la interfaz web de Dataplex Universal Catalog.

Para ver el linaje, sigue estas instrucciones:

  1. En la Google Cloud consola, ve a la página Búsqueda de Dataplex Universal Catalog.

    Ir a la búsqueda

  2. Selecciona Dataplex Universal Catalog como modo de búsqueda.

  3. Busca la entrada que quieras ver y haz clic en ella. Para obtener más información, consulta Buscar recursos en Dataplex Universal Catalog.

  4. Haz clic en la pestaña Linaje.

    Se abre la vista Gráfico de forma predeterminada, que muestra el linaje a nivel de tabla en sistemas y regiones. Para obtener más información, consulta Vista de gráfico de linaje.

  5. Para explorar manualmente el gráfico de linaje, haz clic en Ampliar junto a un nodo para cargar cinco nodos más a la vez.

    Para obtener más información, consulta Explorar manualmente el gráfico de linaje.

  6. Haz clic en un nodo de la vista Gráfico.

    Se abrirá el panel Detalles con información sobre el recurso, como el nombre completo y el tipo. Para obtener más información, consulta Detalles del nodo.

  7. En la vista Gráfico, haz clic en un borde con un icono de proceso.

    Se abrirá el panel Consulta. Para obtener más información, consulta Inspeccionar la lógica de transformación y Auditoría e historial de ejecuciones.

    • Para inspeccionar la lógica de transformación, haz clic en la pestaña Detalles.

    • Para ver la auditoría y el historial de ejecuciones, haz clic en la pestaña Ejecuciones.

  8. En el panel Explorador de linaje, seleccione los criterios de filtro (por ejemplo, Dirección, Tipo de dependencia o Intervalo de tiempo) y, a continuación, haga clic en Aplicar.

    Se abre una vista enfocada en una región específica (vista previa). Esta vista amplía automáticamente el gráfico hasta tres niveles de nodos. Para obtener más información, consulta Aplicar filtros para ver un linaje específico.

  9. En la vista Gráfico, selecciona un nodo y, a continuación, en el panel de detalles del nodo, haz clic en Visualizar ruta para ver la ruta de linaje desde el nodo seleccionado hasta la entrada raíz (solo en la vista enfocada).

    Para obtener más información, consulta Visualización de la ruta de linaje.

  10. Para ver el linaje a nivel de columna (solo en el caso de las tareas de BigQuery), haz una de las siguientes acciones:

    • En una vista Gráfico centrada, haga clic en el icono de columna de una tabla.
      Icono que se usa para cambiar al linaje a nivel de columna.
      Icono de columna
    • En el panel Explorador de linaje, filtre por nombre de columna y haga clic en Aplicar.

    Para obtener más información, consulta Linaje a nivel de columna.

  11. Haz clic en Restablecer.

    Con esta acción se quitan todos los filtros aplicados y se vuelve al principio de la vista de gráfico.

  12. Haz clic en Lista para cambiar a la vista de lista.

    La vista Lista ofrece representaciones tabulares simplificadas y detalladas del linaje tanto a nivel de tabla como de columna, sincronizadas con la vista Gráfico. De forma predeterminada, se muestra la vista de lista simplificada, pero puedes cambiar a la vista de lista detallada para analizar las relaciones entre fuentes y destinos. Puede configurar las columnas que se muestran y exportar los datos de linaje. Para obtener más información, consulta Vista de lista de linaje.

Ver el linaje en BigQuery

Puede ver la información del linaje de datos en la interfaz web de BigQuery.

Para ver el linaje, sigue estas instrucciones:

  1. En la Google Cloud consola, ve a la página BigQuery.

    Abre la página de BigQuery

  2. Abre la tabla de la que quieras ver el linaje de datos.

  3. Haz clic en la pestaña Linaje.

    Se abre la vista Gráfico de forma predeterminada, que muestra el linaje a nivel de tabla en sistemas y regiones. Para obtener más información, consulta Vista de gráfico de linaje.

  4. Para explorar manualmente el gráfico de linaje, haz clic en Ampliar junto a un nodo para cargar cinco nodos más a la vez.

    Para obtener más información, consulta Explorar manualmente el gráfico de linaje.

  5. Haz clic en un nodo de la vista Gráfico.

    Se abrirá el panel Detalles con información sobre el recurso, como el nombre completo y el tipo. Para obtener más información, consulta Detalles del nodo.

  6. En la vista Gráfico, haz clic en un borde con un icono de proceso.

    Se abrirá el panel Consulta. Para obtener más información, consulta Inspeccionar la lógica de transformación y Auditoría e historial de ejecuciones.

    • Para inspeccionar la lógica de transformación, haz clic en la pestaña Detalles.

    • Para ver la auditoría y el historial de ejecuciones, haz clic en la pestaña Ejecuciones.

  7. En el panel Explorador de linaje, seleccione los criterios de filtro (por ejemplo, Dirección, Tipo de dependencia o Intervalo de tiempo) y, a continuación, haga clic en Aplicar.

    Se abre una vista enfocada en una región específica (vista previa). Esta vista amplía automáticamente el gráfico hasta tres niveles de nodos. Para obtener más información, consulta Aplicar filtros para ver un linaje específico.

  8. En la vista Gráfico, selecciona un nodo y, a continuación, en el panel de detalles del nodo, haz clic en Visualizar ruta para ver la ruta de linaje desde el nodo seleccionado hasta la entrada raíz (solo en la vista enfocada).

    Para obtener más información, consulta Visualización de la ruta de linaje.

  9. Para ver el linaje a nivel de columna (solo en el caso de las tareas de BigQuery), haz una de las siguientes acciones:

    • En una vista Gráfico centrada, haga clic en el icono de columna de una tabla.
      Icono que se usa para cambiar al linaje a nivel de columna.
      Icono de columna
    • En el panel Explorador de linaje, filtre por nombre de columna y haga clic en Aplicar.

    Para obtener más información, consulta Linaje a nivel de columna.

  10. Haz clic en Restablecer.

    Con esta acción se quitan todos los filtros aplicados y se vuelve al principio de la vista de gráfico.

  11. Haz clic en Lista para cambiar a la vista de lista.

    La vista Lista ofrece representaciones tabulares simplificadas y detalladas del linaje tanto a nivel de tabla como de columna, sincronizadas con la vista Gráfico. De forma predeterminada, se muestra la vista de lista simplificada, pero puedes cambiar a la vista de lista detallada para analizar las relaciones entre fuentes y destinos. Puede configurar las columnas que se muestran y exportar los datos de linaje. Para obtener más información, consulta Vista de lista de linaje.

Ver el linaje en Vertex AI

Sistemas como Vertex AI Pipelines generan datos de linaje para modelos y conjuntos de datos de Vertex AI. Puedes ver la información del linaje de datos en la interfaz web de Vertex AI.

Ver el linaje de un conjunto de datos gestionado en Vertex AI

Para ver el linaje de un conjunto de datos, sigue estas instrucciones:

  1. En la Google Cloud consola, ve a la página Conjuntos de datos.

    Abre la página Conjuntos de datos.

  2. Haga clic en el conjunto de datos del que quiera ver el linaje de datos.

  3. Haz clic en la pestaña Linaje.

    Se abre la vista Gráfico de forma predeterminada, que muestra el linaje a nivel de tabla en sistemas y regiones. Para obtener más información, consulta Vista de gráfico de linaje.

  4. Para explorar manualmente el gráfico de linaje, haz clic en Ampliar junto a un nodo para cargar cinco nodos más a la vez.

    Para obtener más información, consulta Explorar manualmente el gráfico de linaje.

  5. Haz clic en un nodo de la vista Gráfico.

    Se abrirá el panel Detalles con información sobre el recurso, como el nombre completo y el tipo. Para obtener más información, consulta Detalles del nodo.

  6. En la vista Gráfico, haz clic en un borde con un icono de proceso.

    Se abrirá el panel Consulta. Para obtener más información, consulta Inspeccionar la lógica de transformación y Auditoría e historial de ejecuciones.

    • Para inspeccionar la lógica de transformación, haz clic en la pestaña Detalles.

    • Para ver la auditoría y el historial de ejecuciones, haz clic en la pestaña Ejecuciones.

  7. En el panel Explorador de linaje, seleccione los criterios de filtro (por ejemplo, Dirección, Tipo de dependencia o Intervalo de tiempo) y, a continuación, haga clic en Aplicar.

    Se abre una vista enfocada en una región específica (vista previa). Esta vista amplía automáticamente el gráfico hasta tres niveles de nodos. Para obtener más información, consulta Aplicar filtros para ver un linaje específico.

  8. En la vista Gráfico, selecciona un nodo y, a continuación, en el panel de detalles del nodo, haz clic en Visualizar ruta para ver la ruta de linaje desde el nodo seleccionado hasta la entrada raíz (solo en la vista enfocada).

    Para obtener más información, consulta Visualización de la ruta de linaje.

  9. Para ver el linaje a nivel de columna (solo en el caso de las tareas de BigQuery), haz una de las siguientes acciones:

    • En una vista Gráfico centrada, haga clic en el icono de columna de una tabla.
      Icono que se usa para cambiar al linaje a nivel de columna.
      Icono de columna
    • En el panel Explorador de linaje, filtre por nombre de columna y haga clic en Aplicar.

    Para obtener más información, consulta Linaje a nivel de columna.

  10. Haz clic en Restablecer.

    Con esta acción se quitan todos los filtros aplicados y se vuelve al principio de la vista de gráfico.

  11. Haz clic en Lista para cambiar a la vista de lista.

    La vista Lista ofrece representaciones tabulares simplificadas y detalladas del linaje tanto a nivel de tabla como de columna, sincronizadas con la vista Gráfico. De forma predeterminada, se muestra la vista de lista simplificada, pero puedes cambiar a la vista de lista detallada para analizar las relaciones entre fuentes y destinos. Puede configurar las columnas que se muestran y exportar los datos de linaje. Para obtener más información, consulta Vista de lista de linaje.

Ver el linaje de un modelo en Vertex AI

Para ver el linaje de un modelo, sigue estas instrucciones:

  1. En la Google Cloud consola, ve a la página Registro de modelos.

    Abre la página Registro de modelos.

  2. Haz clic en el modelo del que quieras ver el linaje de datos.

  3. Haz clic en la pestaña Linaje.

    Se abre la vista Gráfico de forma predeterminada, que muestra el linaje a nivel de tabla en sistemas y regiones. Para obtener más información, consulta Vista de gráfico de linaje.

  4. Para explorar manualmente el gráfico de linaje, haz clic en Ampliar junto a un nodo para cargar cinco nodos más a la vez.

    Para obtener más información, consulta Explorar manualmente el gráfico de linaje.

  5. Haz clic en un nodo de la vista Gráfico.

    Se abrirá el panel Detalles con información sobre el recurso, como el nombre completo y el tipo. Para obtener más información, consulta Detalles del nodo.

  6. En la vista Gráfico, haz clic en un borde con un icono de proceso.

    Se abrirá el panel Consulta. Para obtener más información, consulta Inspeccionar la lógica de transformación y Auditoría e historial de ejecuciones.

    • Para inspeccionar la lógica de transformación, haz clic en la pestaña Detalles.

    • Para ver la auditoría y el historial de ejecuciones, haz clic en la pestaña Ejecuciones.

  7. En el panel Explorador de linaje, seleccione los criterios de filtro (por ejemplo, Dirección, Tipo de dependencia o Intervalo de tiempo) y, a continuación, haga clic en Aplicar.

    Se abre una vista enfocada en una región específica (vista previa). Esta vista amplía automáticamente el gráfico hasta tres niveles de nodos. Para obtener más información, consulta Aplicar filtros para ver un linaje específico.

  8. En la vista Gráfico, selecciona un nodo y, a continuación, en el panel de detalles del nodo, haz clic en Visualizar ruta para ver la ruta de linaje desde el nodo seleccionado hasta la entrada raíz (solo en la vista enfocada).

    Para obtener más información, consulta Visualización de la ruta de linaje.

  9. Para ver el linaje a nivel de columna (solo en el caso de las tareas de BigQuery), haz una de las siguientes acciones:

    • En una vista Gráfico centrada, haga clic en el icono de columna de una tabla.
      Icono que se usa para cambiar al linaje a nivel de columna.
      Icono de columna
    • En el panel Explorador de linaje, filtre por nombre de columna y haga clic en Aplicar.

    Para obtener más información, consulta Linaje a nivel de columna.

  10. Haz clic en Restablecer.

    Con esta acción se quitan todos los filtros aplicados y se vuelve al principio de la vista de gráfico.

  11. Haz clic en Lista para cambiar a la vista de lista.

    La vista Lista ofrece representaciones tabulares simplificadas y detalladas del linaje tanto a nivel de tabla como de columna, sincronizadas con la vista Gráfico. De forma predeterminada, se muestra la vista de lista simplificada, pero puedes cambiar a la vista de lista detallada para analizar las relaciones entre fuentes y destinos. Puede configurar las columnas que se muestran y exportar los datos de linaje. Para obtener más información, consulta Vista de lista de linaje.

Siguientes pasos