Criar pipelines do Dataflow

Esta página descreve as diferentes maneiras de criar pipelines para o Dataflow e as vantagens de cada método.

Modelos fornecidos pelo Google

O Google oferece modelos de código aberto para dezenas de pipelines do Dataflow pré-criados. É possível executar esses modelos no Google Cloud console ou na linha de comando. Alguns modelos aceitam a adição de uma função definida pelo usuário (UDF, na sigla em inglês), para que você possa transformar os dados antes de gravá-los no destino de saída.

Considere usar um modelo se houver um que corresponda ao seu cenário. Para conferir uma lista completa, consulte Modelos fornecidos pelo Google.

Criador de jobs

O criador de jobs é uma UI visual para criar e executar pipelines do Dataflow no Google Cloud console, sem escrever códigos. No criador de jobs, você cria um pipeline selecionando origens, coletores e transformações e conectando-os para formar um gráfico. O criador de jobs também permite salvar e carregar seus pipelines como arquivos YAML.

Considere o criador de jobs para os seguintes cenários:

  • Criar pipelines personalizados quando um modelo fornecido pelo Google não corresponde ao seu cenário.
  • Criar pipelines sem codificação.
  • Criar pipelines com várias origens ou coletores.
  • Criar protótipos rápidos.

Para mais informações, consulte Visão UI do criador de jobs.

O criador de jobs oferece suporte a um subconjunto das origens e coletores disponíveis no Apache Beam. Se você precisar de um que não seja compatível com o criador de jobs, tente um modelo fornecido pelo Google ou use o SDK do Apache Beam.

SDK do Apache Beam

Os pipelines do Dataflow são criados no SDK de código aberto do Apache Beam. Ao usar o SDK para escrever seu pipeline, você aproveita todo o poder do Apache Beam para suas cargas de trabalho. Os pipelines podem ser escritos em Java, Python ou Go.

Considere usar o SDK do Apache Beam se não for possível alcançar seu cenário com um modelo fornecido pelo Google ou usando o criador de jobs. Exemplo:

  • Pipelines mais complexos que precisam do conjunto completo de recursos do Apache Beam.
  • Pipelines de streaming que exigem estratégias mais sofisticadas para processar dados atrasados, como o reprocessamento.

Para mais informações, consulte Usar o Apache Beam para criar pipelines.

Notebooks

É possível executar o código Python do Apache Beam em um notebook do JupyterLab. Esses notebooks são disponibilizados pelo Gemini Enterprise Agent Platform Workbench, um serviço que hospeda VMs de notebook pré-instaladas com os frameworks de ciência de dados e aprendizado de máquina mais recentes. Com os notebooks, não é necessário configurar um ambiente de desenvolvimento, e você pode iterar rapidamente no código do pipeline. Os notebooks são executados em um ambiente de teste, mas é possível exportar o código para uso em produção.

Para mais informações, consulte Desenvolver notebooks do Apache Beam.