Rastrear a linhagem de dados de uma tabela do BigQuery

Este documento descreve como rastrear a linhagem de dados em tabelas do BigQuery. A linhagem de dados é o processo de rastrear a origem dos dados, como eles são transformados e para onde se movem ao longo do tempo. Entender a linhagem de dados é fundamental para garantir a conformidade, solucionar problemas de dados e realizar análises de causa raiz.

Este guia de início rápido mostra como começar a usar a linhagem de dados para tabelas do BigQuery:

  1. Copie duas tabelas de um conjunto de dados new_york_taxi_trips disponível publicamente.

  2. Combine o número total de viagens de táxi das duas tabelas em uma nova.

  3. Confira um gráfico de visualização de linhagem para todas as três operações.

Antes de começar

Configure o projeto:

  1. Faça login na sua Google Cloud conta do. Se você não conhece o Google Cloud, crie uma conta para avaliar o desempenho dos nossos produtos em cenários reais. Clientes novos também recebem US $300 em créditos para executar, testar e implantar cargas de trabalho.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  4. Verify that billing is enabled for your Google Cloud project.

  5. Enable the Dataplex, BigQuery, and Data Lineage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  8. Verify that billing is enabled for your Google Cloud project.

  9. Enable the Dataplex, BigQuery, and Data Lineage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

Funções exigidas

Para receber as permissões necessárias para visualizar gráficos de visualização de linhagem, peça ao seu administrador para conceder a você os seguintes papéis do IAM:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias usando personalizados papéis ou outros predefinidos papéis.

Adicionar um conjunto de dados público ao seu projeto

  1. No Google Cloud console, acesse a página BigQuery.

    Acessar o BigQuery

  2. No painel à esquerda, clique em Explorer:

    Botão destacado para o painel "Explorer".

    Se o painel esquerdo não aparecer, clique em Expandir painel esquerdo para abrir.

  3. No painel Explorer, clique em Adicionar dados.

  4. No painel Adicionar dados, selecione Conjuntos de dados públicos.

  5. No painel Marketplace, pesquise NYC TLC Trips e clique no resultado NYC TLC Trips.

  6. Clique em Ver conjunto de dados.

Isso adiciona o projeto do conjunto de dados público como uma referência que pode ser visualizada no painel Explorer. O painel de detalhes mostra Informações do conjunto de dados, incluindo informações como ID do conjunto de dados, Local dos dados e data da Última modificação.

Criar um conjunto de dados no projeto

  1. No painel à esquerda, clique em Explorer:

    Botão destacado para o painel "Explorer".

  2. No painel Explorer, selecione o projeto em que você quer criar o conjunto de dados.

  3. Clique em Ações e em Criar conjunto de dados.

  4. Na página Criar conjunto de dados, no campo ID do conjunto de dados, insira: data_lineage_demo. Não altere os valores padrão dos outros campos.

  5. Clique em Criar conjunto de dados.

  6. No painel Explorer, clique em Conjuntos de dados e, em seguida, clique em data_lineage_demo recém-adicionado.

O painel de detalhes mostra as Informações do conjunto de dados.

Copiar duas tabelas acessíveis publicamente para o conjunto de dados

  1. Abra um editor de consultas: no painel de detalhes, ao lado da guia chamada data_lineage_demo, clique em Consulta SQL. Esta etapa cria uma guia chamada Untitled.

  2. No editor de consultas, copie a primeira tabela inserindo a consulta a seguir. Substitua PROJECT_ID pelo identificador do projeto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Clique em Executar. Esta etapa cria a primeira tabela, chamada nyc_green_trips_2021.

  4. No painel Resultados da consulta, clique em Acessar tabela. Esta etapa mostra o conteúdo da primeira tabela.

  5. No editor de consultas, copie a segunda tabela substituindo a consulta anterior pela seguinte. Substitua PROJECT_ID pelo identificador do projeto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Clique em Executar. Esta etapa cria a segunda tabela, chamada nyc_green_trips_2022.

  7. No painel Resultados da consulta, clique em Acessar tabela. Esta etapa mostra o conteúdo da segunda tabela.

Agregar dados em uma nova tabela

  1. No editor de consultas, insira a seguinte consulta. Substitua PROJECT_ID por seu identificador do projeto.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Clique em Executar. Esta etapa cria uma tabela combinada, chamada total_green_trips_22_21.

  3. No painel Resultados da consulta, clique em Acessar tabela. Esta etapa mostra a tabela combinada.

Conferir o gráfico de linhagem no Knowledge Catalog

  1. No Google Cloud console, acesse a página Pesquisa do Knowledge Catalog.

    Acesse Pesquisar

  2. Se a plataforma de pesquisa estiver definida como Data Catalog, no Escolher plataforma de pesquisa menu, selecione Knowledge Catalog.

  3. Na caixa Pesquisar, insira total_green_trips_22_21 e clique em Pesquisar.

  4. Na lista de resultados, clique em total_green_trips_22_21. Esta etapa mostra a guia Detalhes da tabela do BigQuery.

  5. Clique na guia Linhagem.

A tabela "total_green_trips_22_21" com o painel de detalhes ancorado na parte de baixo.
Figura 1. Linhagem de dados com detalhes do nó

No gráfico de linhagem, cada nó retangular representa uma tabela, seja ela original, copiada ou combinada. Faça o seguinte:

  • Para mostrar ou ocultar a origem de uma tabela, clique em + (Expandir) ou - (Recolher).

  • Para mostrar informações da tabela, clique em um nó. Esta etapa mostra um painel Detalhes do nó.

  • Para mostrar informações do processo, clique em ver detalhes do processo de linhagem. Esta etapa mostra um painel Detalhes do processo que mostra o job que transformou uma tabela de origem em uma tabela de destino.

A tabela intermediária nyc_green_trips_2021 com o painel de detalhes ancorado na parte de baixo.
Figura 2. Linhagem de dados com detalhes do processo

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga as etapas abaixo.

Excluir o projeto

  1. No Google Cloud console, acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir.
  3. Na caixa de diálogo, digite o ID do projeto e clique em Desligar para excluir o projeto.

Excluir o conjunto de dados

  1. Noconsole, acesse a página BigQuery. Google Cloud

    Acessar o BigQuery

  2. No painel à esquerda, clique em Explorer:

    Botão destacado para o painel "Explorer".

  3. No painel Explorer, pesquise o conjunto de dados data_lineage_demo que você criou.

  4. Clique no conjunto de dados e em Excluir.

  5. Confirme a ação de exclusão.

A seguir