Rastrear a linhagem de dados de uma tabela do BigQuery
Neste documento, descrevemos como rastrear a linhagem de dados em tabelas do BigQuery. A linhagem de dados é o processo de rastrear a origem dos dados, como eles são transformados e para onde se movem ao longo do tempo. Entender a linhagem de dados é fundamental para garantir a conformidade, resolver problemas de dados e realizar análises da causa raiz.
Este guia de início rápido mostra como começar a usar a linhagem de dados para tabelas do BigQuery:
Copie duas tabelas de um conjunto de dados
new_york_taxi_tripsdisponível publicamente.Combine o número total de corridas de táxi das duas tabelas em uma nova.
Confira um gráfico de visualização da linhagem para todas as três operações.
Antes de começar
Configure o projeto:
- Faça login na sua conta do Google Cloud . Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, BigQuery, and Data Lineage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataplex, BigQuery, and Data Lineage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
Funções exigidas
Para receber as permissões necessárias para visualizar gráficos de visualização de linhagem, peça ao administrador para conceder a você os seguintes papéis do IAM:
-
Leitor do Dataplex Catalog (
roles/dataplex.catalogViewer) no projeto de recursos do Knowledge Catalog (antigo Dataplex Universal Catalog) -
Leitor da linhagem de dados (
roles/datalineage.viewer) no projeto em que você usa o BigQuery -
Leitor de dados do BigQuery (
roles/bigquery.dataViewer) no projeto em que você usa o BigQuery
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.
Adicionar um conjunto de dados público ao projeto
No Google Cloud console, acesse a página BigQuery.
No painel à esquerda, clique em Explorer:

Se o painel esquerdo não aparecer, clique em Expandir painel esquerdo para abrir.
No painel Explorer, clique em Adicionar dados.
No painel Adicionar dados, selecione Conjuntos de dados públicos.
No painel Marketplace, pesquise
NYC TLC Tripse clique no resultado NYC TLC Trips.Clique em Ver conjunto de dados.
Isso adiciona o projeto do conjunto de dados público como uma referência que pode ser visualizada no painel Explorer. O painel de detalhes mostra Informações do conjunto de dados, incluindo informações como ID do conjunto de dados, Local dos dados e data da Última modificação.
Criar um conjunto de dados no projeto
No painel à esquerda, clique em Explorer:

No painel Explorador, selecione o projeto em que você quer criar o conjunto de dados.
Clique em Ações e em Criar conjunto de dados.
Na página Criar conjunto de dados, no campo ID do conjunto de dados, insira:
data_lineage_demo. Não altere os valores padrão dos outros campos.Clique em Criar conjunto de dados.
No painel Explorer, clique em Conjuntos de dados e depois no
data_lineage_demorecém-adicionado.
O painel de detalhes mostra as Informações do conjunto de dados.
Copiar duas tabelas acessíveis publicamente para seu conjunto de dados
Abra um editor de consultas: no painel de detalhes, ao lado da guia chamada
data_lineage_demo, clique em Consulta SQL. Essa etapa cria uma guia chamadaUntitled.No editor de consultas, copie a primeira tabela inserindo a seguinte consulta. Substitua
PROJECT_IDpelo identificador do projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`Clique em Executar. Esta etapa cria a primeira tabela, chamada
nyc_green_trips_2021.No painel Resultados da consulta, clique em Ir para a tabela. Esta etapa mostra o conteúdo da primeira tabela.
No editor de consultas, copie a segunda tabela substituindo a consulta anterior pela seguinte: Substitua
PROJECT_IDpelo identificador do projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`Clique em Executar. Esta etapa cria a segunda tabela, chamada
nyc_green_trips_2022.No painel Resultados da consulta, clique em Ir para a tabela. Esta etapa mostra o conteúdo da segunda tabela.
Agregar dados em uma nova tabela
No editor de consultas, insira a seguinte consulta: Substitua
PROJECT_IDpelo identificador do projeto.CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21` AS SELECT vendor_id, COUNT(*) AS number_of_trips FROM ( SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` UNION ALL SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` ) GROUP BY vendor_idClique em Executar. Essa etapa cria uma tabela combinada chamada
total_green_trips_22_21.No painel Resultados da consulta, clique em Ir para a tabela. Esta etapa mostra a tabela combinada.
Ver o gráfico de linhagem no Knowledge Catalog
No console Google Cloud , acesse a página Pesquisa do Knowledge Catalog.
Se a plataforma de pesquisa estiver definida como Data Catalog, no menu Escolher plataforma de pesquisa, selecione Knowledge Catalog.
Na caixa Pesquisar, digite
total_green_trips_22_21e clique em Pesquisar.Na lista de resultados, clique em
total_green_trips_22_21. Esta etapa mostra a guia Detalhes da tabela do BigQuery.Clique na guia Linhagem.
No gráfico de linhagem, cada nó retangular representa uma tabela, seja ela original, copiada ou combinada. Faça o seguinte:
Para mostrar ou ocultar a origem de uma tabela, clique em + (Expandir) ou - (Recolher).
Para mostrar informações da tabela, clique em um nó. Esta etapa mostra um painel de Detalhes do nó.
Para mostrar informações do processo, clique em
.
Esta etapa mostra um painel Detalhes do processo com o job que transformou uma tabela de origem em uma tabela de destino.
Limpar
Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga as etapas abaixo.
Excluir o projeto
- No console Google Cloud , acesse a página Gerenciar recursos.
- Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
- Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.
Excluir o conjunto de dados
No console do Google Cloud , acesse a página BigQuery.
No painel à esquerda, clique em Explorer:

No painel Explorador, pesquise o conjunto de dados
data_lineage_demoque você criou.Clique no conjunto de dados e em Excluir.
Confirme a ação de exclusão.
A seguir
- Saiba mais sobre a linhagem de dados.
- Saiba como executar consultas do BigQuery.
- Saiba como usar a linhagem de dados.
- Saiba mais sobre os preços do Knowledge Catalog.
- Confira os casos de uso do Knowledge Catalog.