Gerenciar pipelines

Neste documento, descrevemos como gerenciar pipelines do BigQuery, incluindo como programar e excluir pipelines.

Este documento também descreve como visualizar e gerenciar metadados de pipeline no Catálogo de Conhecimento.

Os pipelines são gerados pelo Dataform.

Antes de começar

  1. Crie um pipeline do BigQuery.
  2. Para gerenciar metadados de pipeline no Catálogo de Conhecimento, verifique se a API Dataplex está ativada no seu Google Cloud projeto.

Funções exigidas

Para conseguir as permissões que você precisa para gerenciar pipelines, peça ao administrador para conceder a você os seguintes papéis do IAM:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias usando personalizados papéis ou outros predefinidos papéis.

Para gerenciar metadados de pipeline no Catálogo de Conhecimento, verifique se você tem os papéis necessários do Catálogo de Conhecimento

Para mais informações sobre o IAM do Dataform, consulte Controlar o acesso com o IAM.

Visualizar todos os pipelines

Para ver uma lista de todos os pipelines do projeto, faça o seguinte:

  1. No Google Cloud console, acesse a BigQuery.

    Acessar o BigQuery

  2. No painel à esquerda, clique em Explorer:

    Botão destacado para o painel "Explorer".

    Se o painel esquerdo não aparecer, clique em Expandir painel esquerdo para abrir.

  3. No painel Explorer, expanda o projeto e clique em Pipelines.

Conferir execuções manuais anteriores

Para conferir as execuções manuais anteriores de um pipeline selecionado, siga estas etapas:

  1. No Google Cloud console, acesse a BigQuery.

    Acessar o BigQuery

  2. No painel à esquerda, clique em Explorer:

    Botão destacado para o painel "Explorer".

  3. No painel Explorer, expanda o projeto, clique em Pipelines, e selecione um pipeline.

  4. Clique em Execuções.

  5. Opcional: para atualizar a lista de execuções anteriores, clique em Atualizar.

Configurar alertas para execuções de pipeline com falha

Cada pipeline tem um ID de repositório do Dataform correspondente. Cada execução do pipeline do BigQuery é registrada em Cloud Logging usando o ID do repositório do Dataform correspondente. Você pode usar o Cloud Monitoring para observar tendências nos registros do Cloud Logging para execuções de pipeline do BigQuery e receber notificações quando as condições descritas ocorrerem.

Para receber alertas quando uma execução de pipeline do BigQuery falhar, crie uma política de alertas baseada em registros para o ID de repositório do Dataform correspondente. Para instruções, consulte Configurar alertas para invocações de fluxo de trabalho com falha.

Para encontrar o ID do repositório do Dataform do seu pipeline, faça o seguinte:

  1. No Google Cloud console, acesse a BigQuery.

    Acessar o BigQuery

  2. No painel à esquerda, clique em Explorer:

    Botão destacado para o painel "Explorer".

  3. No painel Explorer, expanda o projeto, clique em Pipelines, e selecione um pipeline.

  4. Clique em Configurações.

    O ID do repositório do Dataform do seu pipeline é exibido na parte de baixo da guia Configurações.

Excluir um pipeline

Para excluir um pipeline permanentemente, siga estas etapas:

  1. No Google Cloud console, acesse a BigQuery.

    Acessar o BigQuery

  2. No painel à esquerda, clique em Explorer:

    Botão destacado para o painel "Explorer".

  3. No painel Explorer, expanda o projeto e clique em Pipelines.

  4. Encontre o pipeline que você quer excluir.

  5. Clique em Ver ações ao lado do pipeline e clique em Excluir.

  6. Clique em Excluir.

Gerenciar metadados no Catálogo de Conhecimento

O Catálogo de Conhecimento permite armazenar e gerenciar metadados de pipelines. Os pipelines estão disponíveis no Catálogo de Conhecimento por padrão, sem configuração adicional.

É possível usar o Catálogo de Conhecimento para gerenciar pipelines em todos os locais de pipeline. O gerenciamento de pipelines no Catálogo de Conhecimento está sujeito a cotas e limites do Catálogo de Conhecimento e preços do Catálogo de Conhecimento.

O Catálogo de Conhecimento recupera automaticamente os seguintes metadados de pipelines:

  • Nome do recurso de dados
  • Recurso de dados pai
  • Local do recurso de dados
  • Tipo de recurso de dados
  • Projeto correspondente Google Cloud

O Catálogo de Conhecimento registra pipelines como entradas com os seguintes valores de entrada:

Grupo de entradas do sistema
O grupo de entradas do sistema para pipelines é @dataform. Para conferir detalhes das entradas de pipeline no Catálogo de Conhecimento, é necessário visualizar o grupo de entradas do sistema dataform. Para instruções sobre como visualizar uma lista de todas as entradas em um grupo de entradas, consulte Visualizar detalhes de um grupo de entradas na documentação do Catálogo de Conhecimento.
Tipo de entrada do sistema
O tipo de entrada do sistema para pipelines é dataform-code-asset. Para conferir detalhes de pipelines,é necessário visualizar o tipo de entrada do sistema dataform-code-asset, filtrar os resultados com um filtro baseado em aspectos, e definir o campo type no aspecto dataform-code-asset como WORKFLOW. Em seguida, selecione uma entrada do pipeline selecionado. Para instruções sobre como visualizar detalhes de um tipo de entrada selecionado, consulte Visualizar detalhes de um tipo de entrada na documentação do Catálogo de Conhecimento. Para instruções sobre como visualizar detalhes de uma entrada selecionada, consulte Visualizar detalhes de uma entrada na documentação do Catálogo de Conhecimento.
Tipo de aspecto do sistema
O tipo de aspecto do sistema para pipelines é dataform-code-asset. Para fornecer contexto adicional aos pipelines no Catálogo de Conhecimento anotando as entradas de pipeline de dados com aspectos, visualize o tipo de aspecto dataform-code-asset, filtre os resultados com um filtro baseado em aspectos e defina o campo type no aspecto dataform-code-asset como WORKFLOW. Para instruções sobre como anotar entradas com aspectos, consulte Gerenciar aspectos e enriquecer metadados na documentação do Catálogo de Conhecimento.
Tipo
O tipo de telas de dados é WORKFLOW. Esse tipo permite filtrar pipelines no dataform-code-asset tipo de entrada do sistema e no dataform-code-asset tipo de aspecto usando a aspect:dataplex-types.global.dataform-code-asset.type=WORKFLOW consulta em um filtro baseado em aspectos.

Para instruções sobre como pesquisar recursos no Catálogo de Conhecimento, consulte Pesquisar recursos de dados no Catálogo de Conhecimento na documentação do Catálogo de Conhecimento.

A seguir