Realiza un seguimiento del linaje de datos de una tabla de BigQuery

En este documento, se describe cómo hacer un seguimiento del linaje de los datos en las tablas de BigQuery. El linaje de datos es el proceso de hacer un seguimiento de dónde provienen los datos, cómo se transforman y dónde se trasladan con el tiempo. Comprender el linaje de los datos es fundamental para garantizar el cumplimiento, solucionar problemas relacionados con los datos y realizar análisis de causa raíz.

En esta guía de inicio rápido, se muestra cómo comenzar a usar el linaje de datos para las tablas de BigQuery:

  1. Copia dos tablas de un conjunto de datos new_york_taxi_trips disponible públicamente.

  2. Combina la cantidad total de viajes en taxi de ambas tablas en una tabla nueva.

  3. Visualiza un gráfico de linaje para las tres operaciones.

Antes de comenzar

Haz lo siguiente para configurar tu proyecto:

  1. Accede a tu cuenta de Google Cloud . Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  4. Verify that billing is enabled for your Google Cloud project.

  5. Enable the Dataplex, BigQuery, and Data Lineage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  8. Verify that billing is enabled for your Google Cloud project.

  9. Enable the Dataplex, BigQuery, and Data Lineage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Roles obligatorios

Para obtener los permisos que necesitas para ver los gráficos de visualización de linaje, pídele a tu administrador que te otorgue los siguientes roles de IAM:

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.

Agrega un conjunto de datos públicos a tu proyecto

  1. En la consola de Google Cloud , ve a la página BigQuery.

    Ir a BigQuery

  2. En el panel de la izquierda, haz clic en Explorar.

    Botón destacado del panel Explorador.

    Si no ves el panel izquierdo, haz clic en Expandir panel izquierdo para abrirlo.

  3. En el panel Explorador, haz clic en Agregar datos.

  4. En el panel Agregar datos, selecciona Conjuntos de datos públicos.

  5. En el panel Marketplace, busca NYC TLC Trips y haz clic en el resultado NYC TLC Trips.

  6. Haz clic en Ver conjunto de datos.

De esta manera, se agrega el proyecto del conjunto de datos públicos como referencia que puedes ver en el panel Explorador. En el panel de detalles, se muestra la Información del conjunto de datos, que incluye información como el ID del conjunto de datos, la Ubicación de los datos y la fecha de Última modificación.

Crea un conjunto de datos en tu proyecto

  1. En el panel de la izquierda, haz clic en Explorar.

    Botón destacado del panel Explorador.

  2. En el panel Explorador, selecciona el proyecto en el que deseas crear el conjunto de datos.

  3. Haz clic en Acciones y, luego, en Crear conjunto de datos.

  4. En la página Crear conjunto de datos, en el campo ID del conjunto de datos, ingresa data_lineage_demo. Deje los otros campos con sus valores predeterminados.

  5. Haz clic en Crear conjunto de datos.

  6. En el panel Explorador, haz clic en Conjuntos de datos y, luego, en el data_lineage_demo que se agregó recientemente.

En el panel de detalles, se muestra la Información del conjunto de datos.

Copia dos tablas de acceso público en tu conjunto de datos

  1. Abre un editor de consultas: En el panel de detalles, junto a la pestaña llamada data_lineage_demo, haz clic en Consulta en SQL. En este paso, se crea una pestaña llamada Untitled.

  2. En el editor de consultas, copia la primera tabla ingresando la siguiente consulta. Reemplaza PROJECT_ID por el identificador del proyecto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Haz clic en Ejecutar. En este paso, se crea la primera tabla, llamada nyc_green_trips_2021.

  4. En el panel Resultados de la consulta, haz clic en Ir a la tabla. En este paso, se muestra el contenido de la primera tabla.

  5. En el editor de consultas, copia la segunda tabla reemplazando la consulta anterior por la siguiente. Reemplaza PROJECT_ID por el identificador del proyecto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Haz clic en Ejecutar. En este paso, se crea la segunda tabla, llamada nyc_green_trips_2022.

  7. En el panel Resultados de la consulta, haz clic en Ir a la tabla. En este paso, se muestra el contenido de la segunda tabla.

Agrega datos en una tabla nueva

  1. En el editor de consultas, ingresa la siguiente consulta. Reemplaza PROJECT_ID por el identificador de tu proyecto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Haz clic en Ejecutar. En este paso, se crea una tabla combinada llamada total_green_trips_22_21.

  3. En el panel Resultados de la consulta, haz clic en Ir a la tabla. En este paso, se muestra la tabla combinada.

Consulta el gráfico de linaje en Dataplex Universal Catalog

  1. En la consola de Google Cloud , ve a la página Búsqueda de Dataplex Universal Catalog.

    Ir a Búsqueda

  2. Si tu plataforma de búsqueda está configurada como Data Catalog, en el menú Elige una plataforma de búsqueda, selecciona Dataplex Universal Catalog.

  3. En el cuadro Buscar, ingresa total_green_trips_22_21 y haz clic en Buscar.

  4. En la lista de resultados, haz clic en total_green_trips_22_21. En este paso, se muestra la pestaña Detalles de la tabla de BigQuery.

  5. Haz clic en la pestaña Linaje.

La tabla total_green_trips_22_21 con el panel de detalles anclado en la parte inferior.
Figura 1: Linaje de datos con detalles de los nodos

En el gráfico de linaje, cada nodo rectangular representa una tabla, ya sea original, copiada o combinada. También puedes realizar las siguientes acciones:

  • Para mostrar u ocultar el origen de una tabla, haz clic en + (Expandir) o - (Contraer).

  • Para mostrar la información de la tabla, haz clic en un nodo. En este paso, se muestra un panel Detalles del nodo.

  • Para mostrar información del proceso, haz clic en Ver los detalles del proceso de linaje. En este paso, se muestra un panel Details del proceso que muestra el trabajo que transformó una tabla de origen en una tabla de destino.

La tabla intermedia nyc_green_trips_2021 con el panel de detalles anclado en la parte inferior.
Figura 2: Linaje de datos con detalles del proceso

Realiza una limpieza

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

Borra el proyecto

  1. En la Google Cloud consola, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

Borra el conjunto de datos

  1. En la consola de Google Cloud , ve a la página BigQuery.

    Ir a BigQuery

  2. En el panel de la izquierda, haz clic en Explorar.

    Botón destacado del panel Explorador.

  3. En el panel Explorador, busca el conjunto de datos data_lineage_demo que creaste.

  4. Haz clic en el conjunto de datos y, luego, en Borrar.

  5. Confirma la acción de borrar.

¿Qué sigue?