A linhagem de dados é um mapa visual que acompanha todo o ciclo de vida dos seus dados. Mostra-lhe a origem dos seus dados, o percurso que fazem (os destinos) e todas as alterações ou transformações que ocorrem ao longo do caminho.
Pode ver este mapa completo do percurso dos seus dados diretamente na Google Cloud consola para recursos criados em produtos como o Dataplex Universal Catalog, o BigQuery e o Vertex AI. Para utilizadores avançados, também pode obter estas informações através da API Data Lineage.
Por que motivo precisa da linhagem de dados
As empresas modernas movem e alteram constantemente grandes quantidades de dados. Por exemplo, transformar as compras de clientes não processadas em relatórios, painéis de controlo e modelos de aprendizagem automática. Esta complexidade cria desafios críticos para a sua equipa:
Confiança e validação: os utilizadores de dados têm frequentemente dificuldades em confirmar se os relatórios e os números que veem são precisos e provêm de uma fonte fidedigna.
Resolução de problemas: quando aparece um erro num relatório final, as equipas de dados podem ter dificuldade e demorar muito tempo a rastrear o problema em cada passo até à causa principal.
Gestão de alterações: antes de alterar ou eliminar um elemento de dados (como uma coluna numa tabela), as equipas têm de conhecer todos os relatórios ou modelos posteriores que dependem dele para evitar a interrupção de sistemas críticos.
Conformidade: os líderes precisam de visibilidade sobre a forma como os dados confidenciais (como informações financeiras ou de clientes) são usados em toda a organização para cumprir os requisitos regulamentares.
A linhagem de dados resolve estes problemas fornecendo um percurso claro, visual e documentado dos seus dados. Isto permite-lhe compreender rapidamente as origens de dados, detetar erros, avaliar o impacto das alterações e manter a conformidade.
Fluxo de trabalho de linhagem de dados
O fluxo de trabalho de linhagem de dados inclui os seguintes passos:
Origens de dados e carregamento: as informações de linhagem das suas origens de dados iniciam todo o processo. Para mais informações, consulte o artigo Fontes de linhagem.
Google Cloud serviços: quando a API Data Lineage está ativada, os serviços suportados, como o BigQuery e o Dataflow, comunicam automaticamente eventos de linhagem sempre que os dados são movidos ou transformados.
Origens personalizadas: para quaisquer sistemas não suportados automaticamente por Google Cloud integrações, pode usar a API Data Lineage para registar manualmente informações de linhagem. Recomendamos que importe eventos formatados de acordo com a norma OpenLineage.
Plataforma de linhagem: esta plataforma centralizada carrega, modela e armazena todos os dados de linhagem. Para mais informações, consulte o artigo Modelo de informações de linhagem e granularidade.
API Data Lineage: esta API funciona como o único ponto de entrada para todas as informações de linhagem recebidas. Usa um modelo de dados hierárquico composto por três conceitos essenciais: processo, execução e evento.
Tratamento e armazenamento: a plataforma trata os dados recebidos e armazena-os em bases de dados fiáveis e otimizadas para consultas.
Experiência do utilizador: pode interagir com as informações de linhagem armazenadas de duas formas principais:
Exploração visual: na Google Cloud consola, um serviço de frontend obtém e renderiza os dados de linhagem como um gráfico ou uma lista interativa. Isto é suportado para o catálogo universal do Dataplex, o BigQuery e o Vertex AI (para modelos, conjuntos de dados, visualizações da loja de funcionalidades e grupos de funcionalidades). Isto é ideal para explorar visualmente o percurso dos seus dados. Para mais informações, consulte o artigo Vistas de linhagem na Google Cloud consola.
Acesso programático: através de um cliente da API, pode comunicar diretamente com a API Data Lineage para automatizar a gestão da linhagem. Isto permite-lhe escrever informações de linhagem a partir de origens personalizadas. Também lhe permite ler e consultar os dados de linhagem armazenados para utilização noutras aplicações ou para criar relatórios personalizados.
Origens da linhagem
Pode preencher informações de linhagem no Dataplex Universal Catalog das seguintes formas:
- Automaticamente a partir de Google Cloud serviços integrados
- Manualmente, através da API Data Lineage para origens personalizadas
- Ao importar eventos do OpenLineage
Monitorização automatizada da linhagem de dados
Quando ativa a API Data Lineage, Google Cloud os sistemas que suportam a linhagem de dados começam a comunicar o respetivo movimento de dados. Cada sistema integrado pode enviar informações de linhagem para um intervalo diferente de origens de dados.
BigQuery
Quando ativa a linhagem de dados no seu projeto do BigQuery, o catálogo universal do Dataplex regista automaticamente informações de linhagem para o seguinte:
Novas tabelas criadas como resultado das seguintes tarefas do BigQuery:
- Copie tarefas
- Carregue tarefas que usam um URI do Cloud Storage
- Tarefas de consulta que usam a seguinte linguagem de definição de dados (LDD) no GoogleSQL:
Tabelas existentes quando usa as seguintes declarações de linguagem de manipulação de dados (DML) no GoogleSQL:
SELECTem relação a qualquer um dos tipos de tabelas apresentados:INSERT SELECTMERGEUPDATEDELETE
As tarefas de cópia, consulta e carregamento do BigQuery são representadas como processos.
Para ver os detalhes do processo, no gráfico de linhagem, clique em
.
Cada processo contém o job_id do BigQuery na lista de atributos para a tarefa do BigQuery mais recente.
Outros serviços
A linhagem de dados suporta a integração com os seguintes Google Cloud serviços:
Linha de dados para origens de dados personalizadas
Pode usar a API Data Lineage para registar manualmente informações de linhagem para qualquer origem de dados que não seja suportada pelos sistemas integrados.
O Dataplex Universal Catalog pode criar gráficos de linhagem para linhagem registada manualmente se usar um fullyQualifiedName que corresponda aos nomes totalmente qualificados das entradas existentes do Dataplex Universal Catalog. Se quiser registar a
linhagem de uma origem de dados personalizada, primeiro tem de criar uma
entrada personalizada.
Cada processo para uma origem de dados personalizada pode conter uma chave sql na lista de atributos. O valor desta chave é usado para renderizar um realce de código no painel de detalhes do gráfico de linhagem de dados. A declaração SQL é apresentada tal como foi
fornecida. É responsável por filtrar as informações confidenciais. O nome da chave sql é sensível a maiúsculas e minúsculas.
OpenLineage
Se já usa o OpenLineage para recolher informações de linhagem de outras origens de dados, pode importar eventos do OpenLineage para o catálogo universal do Dataplex e ver estes eventos na consola. Google Cloud Para mais informações, consulte o artigo Integre com o OpenLineage.
Limitações
Seguem-se as limitações da linhagem de dados:
Todas as informações de linhagem são retidas no sistema durante apenas 30 dias.
As informações de linhagem persistem depois de eliminar a origem de dados relacionada. Por exemplo, se eliminar uma tabela do BigQuery, pode continuar a ver a respetiva linhagem através da API e da consola durante um período máximo de 30 dias.
A linhagem de dados não regista automaticamente informações de linhagem direta para rotinas do BigQuery. Se for usada uma rotina numa consulta, a linhagem de dados regista a linhagem entre as tabelas que a rotina lê como dependências das tabelas que a consulta escreve.
Limitações da linhagem ao nível da coluna
A linhagem ao nível da coluna tem as seguintes limitações adicionais:
A linhagem ao nível da coluna não é recolhida para tarefas de carregamento do BigQuery nem para rotinas.
A linhagem ao nível da coluna a montante não é recolhida para tabelas externas.
A linhagem ao nível da coluna não é recolhida se uma tarefa criar mais de 1500 associações ao nível da coluna. Nestes casos, apenas é recolhida a linhagem ao nível da tabela.
Não existe uma API para criar, ler, atualizar, eliminar ou pesquisar a linhagem ao nível da coluna.
O suporte para tabelas particionadas é limitado, porque as colunas de partição, como
_PARTITIONDATEe_PARTITIONTIME, não são reconhecidas no gráfico de linhagem.Limitações da consola:
O percurso do gráfico de linhagem está limitado a uma profundidade de 20 níveis e 10 000 links em cada direção.
A linhagem ao nível da coluna só é obtida a partir da região onde a tabela raiz se encontra. Não existe suporte para a linhagem entre regiões na vista de gráfico.
Preços
O Dataplex Universal Catalog usa a SKU de processamento premium para cobrar a linhagem de dados. Para mais informações, consulte a secção Preços.
Para separar os encargos de linhagem de dados de outros encargos na SKU de processamento premium do Dataplex Universal Catalog, no relatório de faturação do Google Cloud, use a etiqueta
goog-dataplex-workload-typecom o valorLINEAGE.Se chamar a API Data Lineage
OriginsourceTypecom um valor diferente deCUSTOM, incorre em custos adicionais.
O que se segue?
Saiba como monitorizar a linhagem de dados para uma cópia de tabela do BigQuery e tarefas de consulta.
Saiba como usar a linhagem de dados com Google Cloud sistemas.
Saiba mais sobre as vistas de linhagem na Google Cloud consola.
Explore a API Data Lineage.
Para informações administrativas, consulte as considerações sobre a linhagem e o registo de auditoria da linhagem de dados.