Linhagem de dados do Cloud Data Fusion
Você pode usar a linhagem de dados do Cloud Data Fusion para fazer o seguinte:
detectar a causa raiz de eventos de dados inválidos;
realizar uma análise de impacto antes de alterar os dados.
Recomendamos o uso da integração de linhagem de ativos no Catálogo de Conhecimento. Para mais informações, consulte Conferir a linhagem no Catálogo de Conhecimento.
Você também pode conferir a linhagem nos níveis de conjunto de dados e campo no Cloud Data Fusion Studio usando a opção Metadados, que mostra a linhagem de um período selecionado.
A linhagem no nível do conjunto de dados mostra a relação entre conjuntos de dados e pipelines.
A linhagem em nível de campo mostra as operações realizadas em um conjunto de campos no conjunto de dados de origem para produzir um conjunto diferente de campos no conjunto de dados de destino.
No Cloud Data Fusion 6.9.2.4 e versões mais recentes, se você não rastrear a linhagem no
Cloud Data Fusion, recomendamos desativar a emissão de linhagem no nível do campo
na instância usando o
patch
método:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer
$(gcloud auth print-access-token)"
'https://datafusion.googleapis.com/v1beta1/projects/PROJECT_ID/locations/REGION/instances/INSTANCE_ID?updateMask=options'
-d '{ "options": { "metadata.messaging.field.lineage.emission.enabled": "false" } }'
Substitua:
PROJECT_ID: o Google Cloud ID doprojetoREGION: o local do Google Cloud projetoINSTANCE_ID: o ID da instância do Cloud Data Fusion
Cenário do tutorial
Neste tutorial, você trabalhará com dois pipelines:
O pipeline
Shipment Data Cleansinglê dados brutos de remessa de um pequeno conjunto de dados de amostra e aplica transformações para limpar os dados.Em seguida, o pipeline
Delayed Shipments USAlê os dados de frete limpos, analisa-os e encontra os fretes nos EUA que atrasaram além de um limite.
Esses pipelines de tutorial demonstram um cenário típico em que os dados brutos são limpos e enviados para processamento downstream. Essa trilha de dados brutos para os dados de frete limpos até os resultados da análise pode ser explorada usando o recurso de linhagem do Cloud Data Fusion.
Objetivos
- Produzir linhagem executando pipelines de amostra
- Explorar o conjunto de dados e a linhagem no nível do campo
- Descobrir como transmitir informações de handshake do pipeline upstream para o pipeline downstream
Custos
Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:
- Cloud Data Fusion
- Cloud Storage
- BigQuery
Para gerar uma estimativa de custo baseada na projeção de uso,
use a calculadora de preços.
Antes de começar
- Faça login na sua Google Cloud conta do. Se você começou a usar o Google Cloud, crie uma conta para avaliar o desempenho dos nossos produtos em situações reais. Clientes novos também recebem US $300 em créditos para executar, testar e implantar cargas de trabalho.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Ative as APIs Cloud Data Fusion, Cloud Storage, Dataproc e BigQuery.
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (
roles/serviceusage.serviceUsageAdmin), que contém a permissãoserviceusage.services.enable. Saiba como conceder papéis.- Crie uma instância do Cloud Data Fusion.
- Clique nos links a seguir para fazer o download desses pequenos conjuntos de dados para sua máquina local:
Abrir a IU do Cloud Data Fusion
Ao usar o Cloud Data Fusion, você usa o Google Cloud console e a IU separada do Cloud Data Fusion. Noconsole, é possível criar um projeto doconsole e criar e excluir instâncias do Cloud Data Fusion. Google Cloud Google Cloud Na IU do Cloud Data Fusion, é possível usar as várias páginas, como Linhagem, para acessar os recursos do Cloud Data Fusion.
Noconsole, abra a página Instâncias. Google Cloud
Na coluna Ações da instância, clique no link "Visualizar instância". A IU do Cloud Data Fusion será aberta em uma nova guia do navegador.
No painel Integrar, clique em Studio para abrir a página Studio do Cloud Data Fusion.
Implantar e executar pipelines
Importe os dados de frete brutos. Na página Studio, clique em Importar ou clique em + > Pipeline > Importar e selecione e importe o pipeline de limpeza de dados de frete que você baixou em Antes de começar.
Implante o pipeline. Clique em "Implantar" no canto superior direito da página Studio. Após a implantação, a página Pipeline será aberta.
Execute o canal. Clique em "Executar" na parte superior central da página Pipeline.
Importe, implante e execute os dados e o pipeline de fretes atrasados. Depois que o status da limpeza de dados de frete mostrar Concluído, aplique as etapas anteriores aos dados de fretes atrasados nos EUA que você baixou em Antes de começar. Retorne à página Studio para importar os dados e, em seguida, implante e execute esse segundo canal na página Pipeline. Depois que o segundo pipeline for concluído, siga para as etapas restantes.
Descobrir conjuntos de dados
Você precisa descobrir um conjunto de dados antes de explorar a linhagem. Selecione Metadados no painel de navegação à esquerda da IU do Cloud Data Fusion para abrir a página Pesquisar para metadados. Como o conjunto de dados de limpeza de dados de frete especificou Cleaned-Shipments como o conjunto de dados de referência, insira shipment na caixa de pesquisa. Os resultados da pesquisa incluem esse conjunto de dados.
Como usar tags para descobrir conjuntos de dados
Uma pesquisa de metadados descobre conjuntos de dados que foram consumidos, processados ou gerados por pipelines do Cloud Data Fusion. Os pipelines são executados em uma estrutura estruturada que gera e coleta metadados técnicos e operacionais. Os metadados técnicos incluem nome, tipo, esquema, campos, hora de criação e processamento do conjunto de dados. Essas informações técnicas são usadas pelos recursos de pesquisa e metadados do Cloud Data Fusion.
O Cloud Data Fusion também é compatível com a anotação de conjuntos de dados com metadados empresariais, como tags e propriedades de chave-valor, que podem ser usados como critérios de pesquisa. Por exemplo, para adicionar e pesquisar uma anotação de tag empresarial no conjunto de dados de frete brutos:
Clique no botão Propriedades do nó "Dados brutos de envio" na página Pipeline de limpeza de dados de envio para abrir a página Propriedades do Cloud Storage.
Clique em Visualizar metadados para abrir a página Pesquisar.
Em Tags empresariais, clique em + e insira um nome de tag (caracteres alfanuméricos e sublinhados são permitidos) e pressione Enter.
Explorar a linhagem
Linhagem no nível do conjunto de dados
Clique no nome do conjunto de dados "Cleaned-Shipments" (Fretes limpos) listado na página "Pesquisa" (em Descobrir conjuntos de dados) e clique na guia "Linhagem". O gráfico de linhagem mostra que esse conjunto de dados foi gerado pelo pipeline Shipments-Data-Cleansing (Limpeza de dados de frete), que consumiu o conjunto de dados brutos.
As setas para a esquerda e para a direita permitem navegar para frente e para trás por qualquer linhagem de conjunto de dados anterior ou subsequente. Neste exemplo, o gráfico exibe a linhagem completa do conjunto de dados de fretes limpos.
Linhagem no nível do campo
A linhagem no nível do campo do Cloud Data Fusion mostra a relação entre os campos de um conjunto de dados e as transformações que foram realizadas em um conjunto de campos para produzir um conjunto diferente de campos. Assim como a linhagem no nível do conjunto de dados, a linhagem no nível do campo é vinculada tempo, e os resultados mudam com o tempo.
Continuando da etapa Linhagem no nível do conjunto de dados, clique no botão "Linhagem no nível do campo" no canto superior direito do gráfico de linhagem no nível do conjunto de dados para exibir o gráfico de linhagem no nível do campo.
O gráfico de linhagem no nível do campo mostra as conexões entre os campos. Selecione um campo para visualizar a respectiva linhagem. Selecione Visualizar > Fixar campo para visualizar somente a linhagem desse campo.
Selecione Visualizar > Visualizar impacto para realizar uma análise de impacto.
Os links de causa e impacto mostram as transformações realizadas em ambos os lados de um campo em um formato de livro contábil legível. Essas informações podem ser essenciais para a geração de relatórios e a governança.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.
Depois de concluir o tutorial, limpe os recursos que você criou no Google Cloud para não atingir a cota nem gerar cobranças para você no futuro. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.
Excluir o conjunto de dados do tutorial
Neste tutorial, criamos um conjunto de dados logistics_demo com várias tabelas no projeto.
É possível excluir o conjunto de dados da IU da Web do BigQuery no Google Cloud console.
Excluir a instância do Cloud Data Fusion
Siga as instruções para excluir a instância do Cloud Data Fusion.
Excluir o projeto
O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.
Para excluir o projeto:
- Noconsole, acesse a página Gerenciar recursos. Google Cloud
- Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir.
- Na caixa de diálogo, digite o ID do projeto e clique em Desligar para excluir o projeto.
A seguir
- Leia os guias de instruções.
- Veja outro tutorial