Esta página descreve as diferentes maneiras de criar pipelines para o Dataflow e as vantagens de cada método.
Modelos fornecidos pelo Google
O Google oferece modelos de código aberto para dezenas de pipelines do Dataflow pré-criados. É possível executar esses modelos no Google Cloud console ou na linha de comando. Alguns modelos aceitam a adição de uma função definida pelo usuário (UDF, na sigla em inglês), para que você possa transformar os dados antes de gravá-los no destino de saída.
Considere usar um modelo se houver um que corresponda ao seu cenário. Para conferir uma lista completa, consulte Modelos fornecidos pelo Google.
Criador de jobs
O criador de jobs é uma UI visual para criar e executar pipelines do Dataflow no Google Cloud console, sem escrever códigos. No criador de jobs, você cria um pipeline selecionando origens, coletores e transformações e conectando-os para formar um gráfico. O criador de jobs também permite salvar e carregar seus pipelines como arquivos YAML.
Considere o criador de jobs para os seguintes cenários:
- Criar pipelines personalizados quando um modelo fornecido pelo Google não corresponde ao seu cenário.
- Criar pipelines sem codificação.
- Criar pipelines com várias origens ou coletores.
- Criar protótipos rápidos.
Para mais informações, consulte Visão UI do criador de jobs.
O criador de jobs oferece suporte a um subconjunto das origens e coletores disponíveis no Apache Beam. Se você precisar de um que não seja compatível com o criador de jobs, tente um modelo fornecido pelo Google ou use o SDK do Apache Beam.
SDK do Apache Beam
Os pipelines do Dataflow são criados no SDK de código aberto do Apache Beam. Ao usar o SDK para escrever seu pipeline, você aproveita todo o poder do Apache Beam para suas cargas de trabalho. Os pipelines podem ser escritos em Java, Python ou Go.
Considere usar o SDK do Apache Beam se não for possível alcançar seu cenário com um modelo fornecido pelo Google ou usando o criador de jobs. Exemplo:
- Pipelines mais complexos que precisam do conjunto completo de recursos do Apache Beam.
- Pipelines de streaming que exigem estratégias mais sofisticadas para processar dados atrasados, como o reprocessamento.
Para mais informações, consulte Usar o Apache Beam para criar pipelines.
Notebooks
É possível executar o código Python do Apache Beam em um notebook do JupyterLab. Esses notebooks são disponibilizados pelo Gemini Enterprise Agent Platform Workbench, um serviço que hospeda VMs de notebook pré-instaladas com os frameworks de ciência de dados e aprendizado de máquina mais recentes. Com os notebooks, não é necessário configurar um ambiente de desenvolvimento, e você pode iterar rapidamente no código do pipeline. Os notebooks são executados em um ambiente de teste, mas é possível exportar o código para uso em produção.
Para mais informações, consulte Desenvolver notebooks do Apache Beam.