Usar a linhagem de dados com os sistemas do Google Cloud

A linhagem de dados mostra as relações entre os recursos do seu projeto e os processos que os criaram.

É possível conferir os detalhes da linhagem de dados no console Google Cloud ou recuperá-los usando a API Data Lineage.

Dependendo do volume de dados processados, leva tempo para a linhagem de dados mostrar um gráfico. A maioria dos jobs leva três horas, e alguns podem levar até 24 horas.

A linhagem é capturada em todos os projetos. Quando você visualiza a linhagem gerada de vários projetos, é possível conferir as informações agregadas em qualquer um dos projetos relevantes.

Papéis e permissões

Para ver a linhagem de dados, você precisa de permissões específicas do Identity and Access Management (IAM). As informações de linhagem são capturadas em vários projetos, então você precisa de permissões em vários deles.

  • Ao visualizar a linhagem no Dataplex Universal Catalog, no BigQuery ou na Vertex AI, você precisa de permissões para acessar as informações de linhagem no projeto em que está visualizando.

  • Ao visualizar a linhagem registrada em outros projetos, você precisa de permissões para acessar as informações de linhagem nos projetos em que ela foi registrada.

Para ver a linhagem de dados, você precisa das seguintes funções ou permissões. Conceda esses papéis ao principal (por exemplo, o usuário ou a conta de serviço) nos recursos relevantes (por exemplo, projetos ou tabelas do BigQuery).

  • Leitor da linhagem de dados (roles/datalineage.viewer): concede permissão para visualizar a linhagem no console Google Cloud e usar a API Data Lineage. Você precisa aplicar essa função nos projetos em que a linhagem é registrada e nos projetos em que ela é visualizada. Para mais informações, consulte Tipos de projetos.

  • Leitor do Dataplex Universal Catalog (roles/dataplex.catalogViewer): concede permissão para visualizar metadados de recursos catalogados no Dataplex Universal Catalog. Conceda essa função nos projetos em que as entradas do catálogo são armazenadas para permitir que os usuários vejam os detalhes da entrada no gráfico de linhagem. Como alternativa, é possível conceder uma função de leitor no sistema de origem. Para mais informações, consulte Pesquisar recursos de dados com o Dataplex Universal Catalog.

  • Outras permissões do BigQuery:

    • Para conferir detalhes dos recursos do BigQuery no gráfico de linhagem, como definições de tabelas ou consultas de visualização, conceda o papel Leitor de dados do BigQuery (roles/bigquery.dataViewer).
    • Para ver a consulta SQL de um job do BigQuery que gerou linhagem, conceda a permissão bigquery.jobs.get. Essa permissão está incluída em papéis como Administrador do BigQuery (roles/bigquery.admin) e Leitor de recursos do BigQuery (roles/bigquery.resourceViewer).

A linhagem de dados rastreia informações de linhagem automaticamente quando você ativa a API Data Lineage. Não é necessário ter funções de administrador ou editor para capturar a linhagem dos seus recursos de dados.

Para mais informações sobre como conceder papéis, consulte Gerenciar acesso. É possível atribuir um papel em um nível mais alto de pasta ou organização. Para mais informações, consulte Conceder ou revogar um único papel.

Tipos de visualizações de linhagem de dados

É possível conferir as informações de linhagem como um gráfico ou uma lista. Por padrão, o gráfico de linhagem mostra a linhagem no nível da tabela. Para jobs do BigQuery, é possível conferir a linhagem no nível da coluna nas visualizações em gráfico e em lista.

Os seguintes tipos de visualização estão disponíveis:

  • Visualização em gráfico: mostra a linhagem como um gráfico interativo, permitindo que você explore as relações entre recursos e colunas de dados ao expandir os nós.

  • Visualização em lista: mostra a linhagem em formato tabular, fornecendo representações simplificadas e detalhadas da linhagem no nível da tabela e da coluna. É possível personalizar colunas e exportar dados de linhagem dessa visualização.

Os principais elementos do gráfico são descritos da seguinte forma:

  • Nós: representam as entidades de dados. Na visualização no nível da tabela, um nó mostra o nome da tabela e as colunas dela. Na visualização no nível da coluna, cada nó representa uma tabela específica e as colunas dela que têm linhagem.

  • Arestas: as linhas que conectam nós e representam os processos que ocorrem entre eles. As bordas podem ter ícones ou rótulos para fornecer mais informações sobre a transformação:

    • Icons: na visualização no nível da tabela, os ícones aparecem nas bordas para representar o processo de transformação. Ao analisar o gráfico manualmente, os ícones nas bordas representam o sistema de origem do processo (por exemplo, BigQuery ou Vertex AI). Se vários processos estiverem envolvidos, um ícone "vários processos" será mostrado. Se o sistema de origem do processo for desconhecido, um ícone de engrenagem será usado. Quando você aplica filtros, um ícone de engrenagem é usado para todos os processos.
    • Rótulos: na visualização no nível da coluna, as arestas são rotuladas para descrever o tipo de dependência entre colunas, como Exact copy ou Other.

Ativar a linhagem de dados

Ative a linhagem de dados para começar a rastrear automaticamente as informações de linhagem dos sistemas compatíveis. É necessário ativar a API Data Lineage no projeto em que você vê a linhagem e nos projetos em que ela é registrada. Para mais informações, consulte Tipos de projetos.

  1. Para capturar informações de linhagem, siga estas etapas:
    1. No console do Google Cloud , na página Seletor de projetos, selecione o projeto em que você quer registrar a linhagem.

      Acessar o Seletor de projetos

    2. Ative a API Data Lineage.

      Ativar a API Data Lineage

    3. Repita as etapas anteriores para cada projeto em que você quer registrar linhagem.
  2. No projeto em que você vê a linhagem, ative a API Data Lineage e a API Dataplex.

    Ativar as APIs

Visualizar a linhagem no catálogo universal do Dataplex

É possível conferir informações de linhagem de dados na interface da Web do Dataplex Universal Catalog.

Para conferir a linhagem, siga estas instruções:

  1. No console Google Cloud , acesse a página Pesquisa do Universal Catalog do Dataplex.

    Acesse Pesquisar

  2. Selecione Catálogo Universal do Dataplex como o modo de pesquisa.

  3. Pesquise e clique na entrada que você quer visualizar. Para mais informações, consulte Pesquisar recursos no Dataplex Universal Catalog.

  4. Clique na guia Linhagem.

    A visualização Gráfico padrão é aberta, mostrando a linhagem no nível da tabela em sistemas e regiões. Para mais informações, consulte Visualização do gráfico de linhagem.

  5. Para explorar manualmente o gráfico de linhagem, clique em Expandir ao lado de um nó para carregar mais cinco nós por vez.

    Para mais informações, consulte Como analisar manualmente o gráfico de linhagem.

  6. Clique em um nó na visualização Gráfico.

    O painel Detalhes é aberto com informações sobre o recurso, como nome e tipo totalmente qualificados. Para mais informações, consulte Detalhes do nó.

  7. Clique em uma aresta com um ícone de processo na visualização Gráfico.

    O painel Consulta é aberto. Para mais informações, consulte Inspecionar a lógica de transformação e Auditoria e histórico de execuções.

    • Para inspecionar a lógica de transformação, clique na guia Detalhes.

    • Para ver a auditoria e o histórico de execuções, clique na guia Execuções.

  8. No painel Explorador de linhagem, selecione critérios de filtro, por exemplo, Direção, Tipo de dependência ou Período, e clique em Aplicar.

    Isso abre uma visualização focada em uma região específica (prévia). Essa visualização expande automaticamente o gráfico em até três níveis de nós. Para mais informações, consulte Aplicar filtros para uma visualização de linhagem focada.

  9. Na visualização Gráfico focada, selecione um nó e, no painel de detalhes dele, clique em Visualizar caminho para ver o caminho de linhagem do nó selecionado de volta à entrada raiz (somente na visualização focada).

    Para mais informações, consulte Visualização do caminho de linhagem.

  10. Para ver a linhagem no nível da coluna (somente para jobs do BigQuery), faça o seguinte:

    • Em uma visualização Gráfico focada, clique no ícone de coluna em uma tabela.
      Ícone usado para mudar para a linhagem no nível da coluna.
      Ícone de coluna
    • No painel Análise de linhagem, filtre por nome da coluna e clique em Aplicar.

    Para mais informações, consulte Linhagem no nível da coluna.

  11. Clique em Redefinir.

    Essa ação remove todos os filtros aplicados e leva você ao início da visualização de gráfico.

  12. Clique em Lista para mudar para a visualização em lista.

    A visualização Lista oferece representações tabulares simplificadas e detalhadas da linhagem no nível da tabela e da coluna, sincronizadas com a visualização Gráfico. Por padrão, a visualização simplificada em lista é mostrada, mas você pode alternar para a visualização detalhada em lista para analisar as relações individuais de origem-destino. É possível configurar quais colunas são mostradas e exportar dados de linhagem. Para mais informações, consulte Visualização em lista da linhagem.

Ver linhagem no BigQuery

É possível conferir informações de linhagem de dados na interface da Web do BigQuery.

Para conferir a linhagem, siga estas instruções:

  1. No console do Google Cloud , acesse a página BigQuery.

    Abrir a página do BigQuery

  2. Abra a tabela para ver a linhagem de dados.

  3. Clique na guia Linhagem.

    A visualização Gráfico padrão é aberta, mostrando a linhagem no nível da tabela em sistemas e regiões. Para mais informações, consulte Visualização do gráfico de linhagem.

  4. Para explorar manualmente o gráfico de linhagem, clique em Expandir ao lado de um nó para carregar mais cinco nós por vez.

    Para mais informações, consulte Como analisar manualmente o gráfico de linhagem.

  5. Clique em um nó na visualização Gráfico.

    O painel Detalhes é aberto com informações sobre o recurso, como nome e tipo totalmente qualificados. Para mais informações, consulte Detalhes do nó.

  6. Clique em uma aresta com um ícone de processo na visualização Gráfico.

    O painel Consulta é aberto. Para mais informações, consulte Inspecionar a lógica de transformação e Auditoria e histórico de execuções.

    • Para inspecionar a lógica de transformação, clique na guia Detalhes.

    • Para ver a auditoria e o histórico de execuções, clique na guia Execuções.

  7. No painel Explorador de linhagem, selecione critérios de filtro, por exemplo, Direção, Tipo de dependência ou Período, e clique em Aplicar.

    Isso abre uma visualização focada em uma região específica (prévia). Essa visualização expande automaticamente o gráfico em até três níveis de nós. Para mais informações, consulte Aplicar filtros para uma visualização de linhagem focada.

  8. Na visualização Gráfico focada, selecione um nó e, no painel de detalhes dele, clique em Visualizar caminho para ver o caminho de linhagem do nó selecionado de volta à entrada raiz (somente na visualização focada).

    Para mais informações, consulte Visualização do caminho de linhagem.

  9. Para ver a linhagem no nível da coluna (somente para jobs do BigQuery), faça o seguinte:

    • Em uma visualização Gráfico focada, clique no ícone de coluna em uma tabela.
      Ícone usado para mudar para a linhagem no nível da coluna.
      Ícone de coluna
    • No painel Análise de linhagem, filtre por nome da coluna e clique em Aplicar.

    Para mais informações, consulte Linhagem no nível da coluna.

  10. Clique em Redefinir.

    Essa ação remove todos os filtros aplicados e leva você ao início da visualização de gráfico.

  11. Clique em Lista para mudar para a visualização em lista.

    A visualização Lista oferece representações tabulares simplificadas e detalhadas da linhagem no nível da tabela e da coluna, sincronizadas com a visualização Gráfico. Por padrão, a visualização simplificada em lista é mostrada, mas você pode alternar para a visualização detalhada em lista para analisar as relações individuais de origem-destino. É possível configurar quais colunas são mostradas e exportar dados de linhagem. Para mais informações, consulte Visualização em lista da linhagem.

Ver linhagem na Vertex AI

Sistemas como o Vertex AI Pipelines geram dados de linhagem para modelos e conjuntos de dados da Vertex AI. É possível conferir informações de linhagem de dados na interface da Web da Vertex AI.

Ver a linhagem de um conjunto de dados gerenciado na Vertex AI

Para conferir a linhagem de um conjunto de dados, siga estas instruções:

  1. No Google Cloud console, acesse a página Conjuntos de dados.

    Abrir a página "Conjuntos de dados"

  2. Clique no conjunto de dados para ver a linhagem de dados.

  3. Clique na guia Linhagem.

    A visualização Gráfico padrão é aberta, mostrando a linhagem no nível da tabela em sistemas e regiões. Para mais informações, consulte Visualização do gráfico de linhagem.

  4. Para explorar manualmente o gráfico de linhagem, clique em Expandir ao lado de um nó para carregar mais cinco nós por vez.

    Para mais informações, consulte Como analisar manualmente o gráfico de linhagem.

  5. Clique em um nó na visualização Gráfico.

    O painel Detalhes é aberto com informações sobre o recurso, como nome e tipo totalmente qualificados. Para mais informações, consulte Detalhes do nó.

  6. Clique em uma aresta com um ícone de processo na visualização Gráfico.

    O painel Consulta é aberto. Para mais informações, consulte Inspecionar a lógica de transformação e Auditoria e histórico de execuções.

    • Para inspecionar a lógica de transformação, clique na guia Detalhes.

    • Para ver a auditoria e o histórico de execuções, clique na guia Execuções.

  7. No painel Explorador de linhagem, selecione critérios de filtro, por exemplo, Direção, Tipo de dependência ou Período, e clique em Aplicar.

    Isso abre uma visualização focada em uma região específica (prévia). Essa visualização expande automaticamente o gráfico em até três níveis de nós. Para mais informações, consulte Aplicar filtros para uma visualização de linhagem focada.

  8. Na visualização Gráfico focada, selecione um nó e, no painel de detalhes dele, clique em Visualizar caminho para ver o caminho de linhagem do nó selecionado de volta à entrada raiz (somente na visualização focada).

    Para mais informações, consulte Visualização do caminho de linhagem.

  9. Para ver a linhagem no nível da coluna (somente para jobs do BigQuery), faça o seguinte:

    • Em uma visualização Gráfico focada, clique no ícone de coluna em uma tabela.
      Ícone usado para mudar para a linhagem no nível da coluna.
      Ícone de coluna
    • No painel Análise de linhagem, filtre por nome da coluna e clique em Aplicar.

    Para mais informações, consulte Linhagem no nível da coluna.

  10. Clique em Redefinir.

    Essa ação remove todos os filtros aplicados e leva você ao início da visualização de gráfico.

  11. Clique em Lista para mudar para a visualização em lista.

    A visualização Lista oferece representações tabulares simplificadas e detalhadas da linhagem no nível da tabela e da coluna, sincronizadas com a visualização Gráfico. Por padrão, a visualização simplificada em lista é mostrada, mas você pode alternar para a visualização detalhada em lista para analisar as relações individuais de origem-destino. É possível configurar quais colunas são mostradas e exportar dados de linhagem. Para mais informações, consulte Visualização em lista da linhagem.

Ver a linhagem de um modelo na Vertex AI

Para conferir a linhagem de um modelo, siga estas instruções:

  1. No console do Google Cloud , acesse a página Registro de modelo.

    Abra a página "Modelo de registro".

  2. Clique no modelo para ver a linhagem de dados.

  3. Clique na guia Linhagem.

    A visualização Gráfico padrão é aberta, mostrando a linhagem no nível da tabela em sistemas e regiões. Para mais informações, consulte Visualização do gráfico de linhagem.

  4. Para explorar manualmente o gráfico de linhagem, clique em Expandir ao lado de um nó para carregar mais cinco nós por vez.

    Para mais informações, consulte Como analisar manualmente o gráfico de linhagem.

  5. Clique em um nó na visualização Gráfico.

    O painel Detalhes é aberto com informações sobre o recurso, como nome e tipo totalmente qualificados. Para mais informações, consulte Detalhes do nó.

  6. Clique em uma aresta com um ícone de processo na visualização Gráfico.

    O painel Consulta é aberto. Para mais informações, consulte Inspecionar a lógica de transformação e Auditoria e histórico de execuções.

    • Para inspecionar a lógica de transformação, clique na guia Detalhes.

    • Para ver a auditoria e o histórico de execuções, clique na guia Execuções.

  7. No painel Explorador de linhagem, selecione critérios de filtro, por exemplo, Direção, Tipo de dependência ou Período, e clique em Aplicar.

    Isso abre uma visualização focada em uma região específica (prévia). Essa visualização expande automaticamente o gráfico em até três níveis de nós. Para mais informações, consulte Aplicar filtros para uma visualização de linhagem focada.

  8. Na visualização Gráfico focada, selecione um nó e, no painel de detalhes dele, clique em Visualizar caminho para ver o caminho de linhagem do nó selecionado de volta à entrada raiz (somente na visualização focada).

    Para mais informações, consulte Visualização do caminho de linhagem.

  9. Para ver a linhagem no nível da coluna (somente para jobs do BigQuery), faça o seguinte:

    • Em uma visualização Gráfico focada, clique no ícone de coluna em uma tabela.
      Ícone usado para mudar para a linhagem no nível da coluna.
      Ícone de coluna
    • No painel Análise de linhagem, filtre por nome da coluna e clique em Aplicar.

    Para mais informações, consulte Linhagem no nível da coluna.

  10. Clique em Redefinir.

    Essa ação remove todos os filtros aplicados e leva você ao início da visualização de gráfico.

  11. Clique em Lista para mudar para a visualização em lista.

    A visualização Lista oferece representações tabulares simplificadas e detalhadas da linhagem no nível da tabela e da coluna, sincronizadas com a visualização Gráfico. Por padrão, a visualização simplificada em lista é mostrada, mas você pode alternar para a visualização detalhada em lista para analisar as relações individuais de origem-destino. É possível configurar quais colunas são mostradas e exportar dados de linhagem. Para mais informações, consulte Visualização em lista da linhagem.

A seguir