Visão geral dos fluxos de trabalho

Este documento ajuda você a entender a arquitetura e a execução de fluxos de trabalho no Dataform.

É possível usar o Dataform para desenvolver, testar e controlar versões de fluxos de trabalho que podem ser executados no BigQuery para transformar dados para fins de análise. Os fluxos de trabalho do Dataform oferecem suporte a pipelines, preparações de dados, notebooks e consultas salvas do BigQuery.

É possível desenvolver fluxos de trabalho com o Dataform Core, usando arquivos SQLX e, opcionalmente, arquivos JavaScript, ou com JavaScript.

Um fluxo de trabalho pode consistir nos seguintes objetos:

Declarações de fonte de dados
Declarações de fontes de dados do BigQuery que permitem referenciar essas fontes de dados em definições de tabelas do Dataform e operações SQL.
Tabelas
Tabelas criadas no Dataform com base nas fontes de dados declaradas ou em outras tabelas no fluxo de trabalho. O Dataform oferece suporte aos seguintes tipos de tabela: tabela, tabela incremental, visualização e visualização materializada.
Declarações
Consultas de teste de qualidade de dados que podem ser usadas para validar dados de tabelas. O Dataform executa declarações sempre que atualiza seu fluxo de trabalho e alerta você se alguma declaração falhar.
Operações SQL personalizadas
Instruções SQL que o Dataform executa no BigQuery como estão, sem modificação.
Inclui
Arquivos JavaScript com definições de variáveis e funções que podem ser reutilizadas no fluxo de trabalho.

Visualização de um fluxo de trabalho

É possível visualizar o fluxo de trabalho na forma de um gráfico acíclico direcionado (DAG, na sigla em inglês). O DAG mostra todos os objetos do fluxo de trabalho definidos no espaço de trabalho e as relações entre eles. É possível aumentar e diminuir o zoom e usar a navegação por arrastar e soltar no DAG. Se houver erros de compilação no fluxo de trabalho, o Dataform vai mostrar uma mensagem de erro em vez do DAG.

Para visualizar o DAG do fluxo de trabalho, no espaço de trabalho, clique em Gráfico compilado.

Execução de um fluxo de trabalho

É necessário associar uma conta de serviço personalizada a um repositório do Dataform para a execução do fluxo de trabalho. Todas as outras operações do repositório ainda são realizadas pelo agente de serviço padrão do Dataform.

No espaço de trabalho de desenvolvimento, é possível acionar manualmente uma execução de todo o fluxo de trabalho, uma seleção de ações ou uma seleção de tags.

É possível programar execuções com as configurações de versão e de fluxo de trabalho do Dataform. Primeiro, crie uma configuração de versão para criar resultados de compilação do repositório. Em seguida, crie uma configuração de fluxo de trabalho, selecione uma configuração de versão, selecione as ações de fluxo de trabalho que você quer executar e defina a programação de execução.

Como alternativa, é possível programar execuções com o Serviço Gerenciado para Apache Airflow ou com o Workflows e o Cloud Scheduler.

Durante a execução, o Dataform executa consultas SQL no BigQuery, seguindo a ordem das dependências de objetos no fluxo de trabalho. Após a execução, é possível usar suas tabelas e visualizações definidas para todas as finalidades de análise no BigQuery.

Opções de configuração de execução

Para executar um grupo específico de ações de fluxo de trabalho, adicione tags de execução do Dataform aos arquivos selecionados. Em seguida, é possível executar apenas os arquivos com uma tag selecionada ao acionar manualmente uma execução.

Por padrão, o Dataform executa o fluxo de trabalho com as configurações de execução definidas no arquivo workflow_settings.yaml.

Com as substituições de compilação do espaço de trabalho, é possível transformar espaços de trabalho em ambientes de execução isolados. Isso significa que, quando você aciona manualmente a execução em um espaço de trabalho, o Dataform executa a saída em um local isolado no BigQuery.

Para criar e executar um único resultado de compilação com substituições de compilação, é possível transmitir solicitações com a API Dataform.

Com configurações de versão, é possível configurar substituições de compilação para todo o repositório, bem como a frequência de criação de resultados de compilação com as configurações aplicadas.

Para saber mais sobre como configurar a compilação e o ciclo de vida do código no Dataform, consulte Introdução ao ciclo de vida do código no Dataform.

A seguir