Sobre a linhagem de dados

A linhagem de dados é um mapa visual que rastreia todo o ciclo de vida dos seus dados. Ela mostra de onde seus dados vêm (a origem), para onde eles vão (os destinos) e todas as mudanças ou transformações que acontecem ao longo do caminho.

É possível conferir esse mapa completo da jornada dos seus dados diretamente no console doGoogle Cloud para recursos criados em produtos como o Knowledge Catalog (antigo Dataplex Universal Catalog), o BigQuery (incluindo tabelas externas criadas para o catálogo REST do Iceberg) e a Vertex AI. Usuários avançados também podem recuperar essas informações usando a API Data Lineage.

Por que você precisa da linhagem de dados

As empresas modernas movem e mudam grandes quantidades de dados constantemente. Por exemplo, transformar compras brutas de clientes em relatórios, painéis e modelos de aprendizado de máquina. Essa complexidade cria desafios críticos para sua equipe:

  • Confiança e verificação: os usuários de dados geralmente têm dificuldade em confirmar se os relatórios e números que veem são precisos e vêm de uma fonte confiável.

  • Solução de problemas: quando um erro aparece em um relatório final, pode ser difícil e demorado para as equipes de dados rastrear o problema em todas as etapas até a causa raiz.

  • Gestão da mudança: antes de mudar ou excluir um dado (como uma coluna em uma tabela), as equipes precisam ter a necessidade de saber todos os relatórios ou modelos downstream que dependem dele para evitar a quebra de sistemas críticos.

  • Conformidade: os líderes precisam saber como os dados sensíveis (como informações financeiras ou de clientes) são usados em toda a organização para atender aos requisitos regulatórios.

A linhagem de dados resolve esses problemas fornecendo uma jornada clara, visual e documentada dos seus dados. Assim, você entende rapidamente as fontes de dados, rastreia erros, avalia o impacto das mudanças e mantém a conformidade.

Fluxo de trabalho de linhagem de dados

O fluxo de trabalho de linhagem de dados inclui as seguintes etapas:

  1. Fontes de dados e ingestão: as informações de linhagem das suas fontes de dados iniciam todo o processo. Para mais informações, consulte Fontes de linhagem.

    • Google Cloud serviços: quando a API Data Lineage está ativada, os serviços compatíveis, como BigQuery e Dataflow, informam automaticamente os eventos de linhagem sempre que os dados são movidos ou transformados.

    • Fontes personalizadas: para sistemas que não são compatíveis automaticamente com as integrações doGoogle Cloud , use a API Data Lineage para registrar manualmente as informações de linhagem. Recomendamos importar eventos formatados de acordo com o padrão OpenLineage.

  2. Plataforma de linhagem: essa plataforma central ingere, modela e armazena todos os dados de linhagem. Para mais informações, consulte Modelo e granularidade de informações de linhagem.

    • API Data Lineage: atua como o único ponto de entrada para todas as informações de linhagem recebidas. Ele usa um modelo de dados hierárquico composto por três conceitos principais: processo, execução e evento.

    • Processamento e armazenamento: a plataforma processa os dados recebidos e os armazena em bancos de dados confiáveis e otimizados para consultas.

  3. Experiência do usuário: é possível interagir com as informações de linhagem armazenadas de duas maneiras principais:

    • Análise visual: no console Google Cloud , um serviço de front-end busca e renderiza os dados de linhagem como um gráfico ou uma lista interativa. Isso é compatível com o Knowledge Catalog, o BigQuery, o lakehouse (para tabelas do catálogo REST do Iceberg), a camada física (Cloud Storage) e a Vertex AI (para modelos, conjuntos de dados, pipelines, visualizações e grupos de atributos). Isso é ideal para analisar visualmente a jornada dos seus dados. Para mais informações, consulte Visualizações de linhagem no console do Google Cloud .

    • Acesso programático: usando um cliente de API, você pode se comunicar diretamente com a API Data Lineage para automatizar o gerenciamento de linhagem. Isso permite gravar informações de linhagem de fontes personalizadas. Também é possível ler e consultar os dados de linhagem armazenados para uso em outros aplicativos ou para criar relatórios personalizados.

Origens de linhagem

É possível preencher informações de linhagem no Knowledge Catalog das seguintes maneiras:

  • Automaticamente de serviços Google Cloud integrados
  • Manualmente, usando a API Data Lineage para fontes personalizadas
  • Importando eventos do OpenLineage

BigQuery

Quando você ativa a linhagem de dados no projeto do BigQuery, o Knowledge Catalog registra automaticamente informações de linhagem para o seguinte:

Os jobs de cópia, consulta e carregamento do BigQuery são representados como processos.

Para conferir os detalhes de um processo, clique no ícone Detalhes do processo Ícone de detalhes do processo no gráfico de linhagem.

Cada processo contém o job_id do BigQuery na lista de atributos do job mais recente do BigQuery.

Outros serviços

A linhagem de dados é compatível com a integração aos seguintes serviços do Google Cloud :

Linhagem de dados para fontes de dados personalizadas

Você pode usar a API Data Lineage para registrar manualmente informações de linhagem de qualquer fonte de dados que os sistemas integrados não oferecem suporte.

O Catálogo de dados pode criar gráficos de linhagem para linhagem registrada manualmente se você usar um fullyQualifiedName que corresponda aos nomes totalmente qualificados das entradas atuais do Catálogo de dados. Se você quiser registrar a linhagem de uma fonte de dados personalizada, primeiro crie uma entrada personalizada.

Cada processo de uma fonte de dados personalizada pode conter uma chave sql na lista de atributos. O valor dessa chave é usado para renderizar um destaque de código no painel de detalhes do gráfico de linhagem de dados. A instrução SQL é mostrada como foi fornecida. Você é responsável por filtrar informações sensíveis. O nome da chave sql diferencia maiúsculas de minúsculas.

OpenLineage

Se você já usa o OpenLineage para coletar informações de linhagem de outras fontes de dados, é possível importar eventos do OpenLineage para o catálogo do Knowledge e conferir esses eventos no console Google Cloud . Para mais informações, consulte Integrar com o OpenLineage.

Rastreamento automatizado da linhagem de dados

Quando você ativa a API Data Lineage,os sistemas Google Cloud que oferecem suporte à linhagem de dados começam a informar a movimentação dos dados. Cada sistema integrado pode enviar informações de linhagem para um intervalo diferente de fontes de dados.

Ingestão de linhagem de controle

É possível controlar quais serviços geram dados de linhagem ativando ou desativando a ingestão de linhagem para integrações específicas. Google Cloud É possível controlar a ingestão de linhagem nos níveis de organização, pasta e projeto. Durante a prévia, esse recurso oferece suporte à configuração da ingestão de linhagem apenas para o Managed Service for Apache Spark. Se você desativar a ingestão de linhagem para o Serviço Gerenciado para Apache Spark, ela também será desativada para o Serviço Gerenciado para Apache Spark.

O Knowledge Catalog avalia a hierarquia de recursos (projeto, pastas e organização) para determinar a configuração efetiva. A primeira configuração definida explicitamente em qualquer nível nessa travessia ascendente entra em vigor.

  • Se você definir uma configuração no nível do projeto, o catálogo de dados de conhecimento a usará.
  • Se nenhuma configuração for definida no nível do projeto, o Knowledge Catalog usará a configuração da pasta mãe mais próxima com uma configuração explícita.
  • Se nenhuma configuração for definida no nível do projeto ou da pasta, o catálogo de dados usará a configuração no nível da organização.
  • Se nenhuma configuração for definida em qualquer um desses níveis, o catálogo de dados de conhecimento usará o padrão do sistema para a integração. O padrão para a configuração de ativação de linhagem pode ser Ativado ou Desativado. No Managed Service for Apache Spark, a ingestão de linhagem fica ativada por padrão quando a API Data Lineage está ativa.

Por exemplo, considere uma organização test-org com as seguintes configurações de linhagem do Managed Service for Apache Spark:

  • Organização test-org: ativada
    • Pasta folder-a: Desativada
      • Projeto project-a: nenhuma configuração definida
    • Pasta folder-b: Ativada
      • Projeto project-b: desativado

Nesse cenário, as seguintes configurações são aplicáveis:

  • Para project-a, a ingestão de linhagem está Desativada. O catálogo de dados começa a avaliação em project-a, não encontra nenhuma configuração, passa para folder-a e aplica a configuração Desativado de folder-a.
  • Para project-b, a ingestão de linhagem está Desativada. O Knowledge Catalog começa a avaliação em project-b e aplica a configuração Desativado, substituindo as configurações em folder-b e test-org.

Controlar a geração de dados de linhagem ajuda a gerenciar custos e políticas de governança. Por exemplo, é possível desativar a coleta de linhagem para projetos de desenvolvimento ou cargas de trabalho de alto volume que não exigem o rastreamento de linhagem.

Para informações sobre como configurar e controlar a ingestão de linhagem, consulte Controlar a ingestão de linhagem para um serviço.

Limitações

A linhagem de dados tem as seguintes limitações:

  • Todas as informações de linhagem são mantidas no sistema por apenas 30 dias.

  • As informações de linhagem persistem mesmo depois que você exclui a fonte de dados relacionada. Por exemplo, se você excluir uma tabela do BigQuery, ainda poderá ver a linhagem dela pela API e pelo console do Google Cloud por até 30 dias.

  • A linhagem de dados não registra automaticamente informações de linhagem direta para rotinas do BigQuery. Se uma rotina for usada em uma consulta, a linhagem de dados vai registrar a linhagem entre as tabelas que a rotina lê como dependências das tabelas que a consulta grava.

Limitações da linhagem no nível de coluna

A linhagem no nível da coluna tem as seguintes limitações adicionais:

  • A linhagem no nível da coluna não é coletada para jobs de carregamento do BigQuery ou para rotinas.

  • A linhagem upstream no nível da coluna não é coletada para tabelas externas.

  • A linhagem no nível da coluna não é coletada se um job criar mais de 1.500 links nesse nível. Nesses casos, apenas a linhagem no nível da tabela é coletada.

  • Não há uma API para criar, ler, atualizar, excluir ou pesquisar linhagem no nível da coluna.

  • O suporte a tabelas particionadas é limitado porque colunas de particionamento como _PARTITIONDATE e _PARTITIONTIME não são reconhecidas no gráfico de linhagem.

  • Limitações do console:

    • O percurso do gráfico de linhagem é limitado a uma profundidade de 20 níveis e 10.000 links em cada direção.

    • O linhagem no nível da coluna só é buscada na região em que a tabela raiz está localizada. Não há suporte para linhagem entre regiões na visualização de gráfico.

Preços

  • O Catálogo de Conhecimento usa a SKU de processamento premium para cobrar pela linhagem de dados. Para saber mais informações, consulte Preços.

  • Para separar as cobranças de linhagem de dados de outras cobranças na SKU de processamento premium do catálogo do Knowledge, no relatório de faturamento do Cloud Billing, use o rótulo goog-dataplex-workload-type com o valor LINEAGE.

  • Se você chamar a API Data Lineage Origin sourceType com um valor diferente de CUSTOM, isso vai gerar custos adicionais.

A seguir