Visualizar a linhagem no catálogo universal do Dataplex

Esta página descreve como conferir a linhagem de dados gerada pelos pipelines do Cloud Data Fusion com outros movimentos de dados em Google Cloud, para fins de descoberta e governança. É possível visualizar os gráficos de linhagem das fontes de dados com suporte na página do Dataplex Universal Catalog no console ou usar a API Data Lineage para extrair registros completos de linhagem de dados.

Plug-ins compatíveis com a linhagem de dados do Dataplex Universal Catalog

O Cloud Data Fusion e o catálogo universal do Dataplex oferecem suporte à linhagem de recursos para os seguintes plug-ins:

  • Amazon S3
  • BigQuery
  • Coletor de várias tabelas do BigQuery (versão 6.9.1 e mais recentes)
  • Spanner
  • Cloud Storage
  • Cloud SQL para MySQL
  • Cloud SQL para PostgreSQL
  • Catálogo universal do Dataplex
  • FTP
  • Banco de dados genérico
  • HTTP
  • MSSQL/SQL Server
  • Origem de várias tabelas de banco de dados (versão 6.9.1 e mais recentes)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • ODP do SAP
  • Tabela SAP

Para mais informações, consulte Plug-ins do Cloud Data Fusion.

Antes de começar

Para ativar a visualização dos gráficos de linhagem do Cloud Data Fusion na página do catálogo universal do Dataplex no console, faça o seguinte:

  1. Crie um pipeline de dados que use apenas os plug-ins compatíveis.

  2. Ative a API Data Lineage no projeto que contém sua instância do Cloud Data Fusion.

  3. Conceda o papel de produtor de eventos de linhagem de dados (roles/datalineage.producer) à conta serviço gerenciado pelo Cloud Data Fusion, o agente de serviço da API Cloud Data Fusion. O processo varia se a instância for executada em uma versão anterior do Cloud Data Fusion e o RBAC estiver ativado.

    6.10 ou mais recente ou sem RBAC

    Se a instância do Cloud Data Fusion usa a versão 6.10.0 ou mais recente ou usa uma versão anterior e o RBAC não está ativado, siga estas etapas:

    1. No console Google Cloud , acesse a página IAM.

      Acessar IAM

    2. Marque a caixa de seleção Incluir concessões de papel fornecidas pelo Google.

    3. Selecione a conta de serviço do agente de serviço da API Cloud Data Fusion e clique em Editar.

    4. Clique em Adicionar outro papel e selecione a função Produtor de eventos de linhagem de dados.

    5. Clique em Salvar.

    <6.10 com RBAC

    Se a instância do Cloud Data Fusion usar uma versão anterior à 6.10.0 e o RBAC estiver ativado, a conta de serviço não vai aparecer na lista de principais na página do IAM. É necessário inserir o nome da conta de serviço manualmente.

    Para conceder o papel necessário, siga estas etapas:

    1. No console Google Cloud , acesse a página IAM.

      Acessar IAM

    2. Clique em Conceder acesso.

    3. No campo Novos participantes, insira a conta de serviço do agente de serviço da API Cloud Data Fusion. Use o seguinte formato: datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com.

      Substitua TENANT_PROJECT_ID pelo ID do locatário da sua instância. Para conferir o ID do projeto do locatário, acesse a página Instâncias e clique no nome da instância para conferir os detalhes.

      Acesse "Instâncias"

    4. Selecione a função Produtor de eventos de linhagem de dados.

    5. Clique em Salvar.

Ativar a linhagem de dados do Dataplex Universal Catalog no Cloud Data Fusion

Para novas instâncias no Cloud Data Fusion, a linhagem de dados do Dataplex Universal Catalog fica desativada por padrão. Se você criou a instância antes de 27 de janeiro de 2024 com a versão 6.8.0 ou mais recente, ela será ativada por padrão após a conclusão das etapas em Antes de começar.

Ativar a linhagem de dados do Dataplex Universal Catalog ao criar uma instância

Console

Para ativar a linhagem de dados do Dataplex Universal Catalog ao criar uma instância, siga estas etapas:

  1. Acesse a página Instâncias do Cloud Data Fusion e clique em Criar uma instância.

    Criar uma instância

  2. Ao configurar a instância, abra a seção Opções avançadas e clique em Ativar a integração com a linhagem de dados do Dataplex. Para mais informações sobre como criar instâncias, consulte Criar uma instância pública.

API REST

Para ativar a linhagem de dados do Dataplex Universal Catalog ao criar uma instância, defina a propriedade opcional dataplex_data_lineage_integration_enabled como true:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

Para desativar, defina a propriedade como falsa ou omita-a, já que a linhagem é desativada por padrão quando você cria uma nova instância.

Ativar ou desativar a linhagem de dados do Dataplex Universal Catalog em uma instância

Console

Para ativar ou desativar a linhagem de dados do Dataplex Universal Catalog em uma instância atual no Cloud Data Fusion, siga estas etapas:

  1. Confira os detalhes da instância:
    1. In the Google Cloud console, go to the Cloud Data Fusion page.

    2. Click Instances, and then click the instance's name to go to the Instance details page.

      Go to Instances

  2. No campo Integração da linhagem de dados do Dataplex, clique em Editar.
  3. Ative ou desative a linhagem de dados do Dataplex Universal Catalog e clique em Salvar.

API REST

Para ativar a linhagem de dados do Dataplex Universal Catalog em uma instância atual no Cloud Data Fusion, defina a propriedade dataplex_data_lineage_integration_enabled como true e inclua o valor do parâmetro updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Para desativar a linhagem de dados do Dataplex Universal Catalog em uma instância atual no Cloud Data Fusion, defina a propriedade dataplex_data_lineage_integration_enabled como false e inclua o valor do parâmetro updateMask:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Conferir gráficos de linhagem de dados

Para conferir gráficos de linhagem de entidades em todos os serviços Google Cloud , faça o seguinte:

  1. Acesse sua instância no Cloud Data Fusion e execute um pipeline de dados que use os plug-ins compatíveis.

  2. Confira os gráficos de linhagem na página do Dataplex Universal Catalog no console e encontre o recurso para o qual você quer ver as informações de linhagem.

Limitações

A visualização da linhagem no Dataplex Universal Catalog tem as seguintes limitações:

A seguir