O Google usa tecnologia de IA na tradução de conteúdos para seu idioma de preferência. As traduções com IA podem ter erros.

Criar pipelines do Dataflow

Esta página descreve as diferentes maneiras de criar pipelines para o Dataflow e as vantagens de cada método.

Modelos fornecidos pelo Google

O Google oferece modelos de código aberto para dezenas de pipelines do Dataflow pré-criados. É possível executar esses modelos no Google Cloud console ou na linha de comando. Alguns modelos aceitam a adição de uma função definida pelo usuário (UDF, na sigla em inglês), para que você possa transformar os dados antes de gravá-los no destino de saída.

Considere usar um modelo se houver um que corresponda ao seu cenário. Para conferir uma lista completa, consulte Modelos fornecidos pelo Google.

Criador de jobs

O criador de jobs é uma UI visual para criar e executar pipelines do Dataflow no Google Cloud console, sem escrever códigos. No criador de jobs, você cria um pipeline selecionando origens, coletores e transformações e conectando-os para formar um gráfico. O criador de jobs também permite salvar e carregar seus pipelines como arquivos YAML.

Considere o criador de jobs para os seguintes cenários:

Criar pipelines personalizados quando um modelo fornecido pelo Google não corresponde ao seu cenário.
Criar pipelines sem codificação.
Criar pipelines com várias origens ou coletores.
Criar protótipos rápidos.

Para mais informações, consulte Visão UI do criador de jobs.

O criador de jobs oferece suporte a um subconjunto das origens e coletores disponíveis no Apache Beam. Se você precisar de um que não seja compatível com o criador de jobs, tente um modelo fornecido pelo Google ou use o SDK do Apache Beam.

SDK do Apache Beam

Os pipelines do Dataflow são criados no SDK de código aberto do Apache Beam. Ao usar o SDK para escrever seu pipeline, você aproveita todo o poder do Apache Beam para suas cargas de trabalho. Os pipelines podem ser escritos em Java, Python ou Go.

Considere usar o SDK do Apache Beam se não for possível alcançar seu cenário com um modelo fornecido pelo Google ou usando o criador de jobs. Exemplo:

Pipelines mais complexos que precisam do conjunto completo de recursos do Apache Beam.
Pipelines de streaming que exigem estratégias mais sofisticadas para processar dados atrasados, como o reprocessamento.

Para mais informações, consulte Usar o Apache Beam para criar pipelines.

Notebooks

É possível executar o código Python do Apache Beam em um notebook do JupyterLab. Esses notebooks são disponibilizados pelo Gemini Enterprise Agent Platform Workbench, um serviço que hospeda VMs de notebook pré-instaladas com os frameworks de ciência de dados e aprendizado de máquina mais recentes. Com os notebooks, não é necessário configurar um ambiente de desenvolvimento, e você pode iterar rapidamente no código do pipeline. Os notebooks são executados em um ambiente de teste, mas é possível exportar o código para uso em produção.

Para mais informações, consulte Desenvolver notebooks do Apache Beam.

Criar pipelines do Dataflow Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Modelos fornecidos pelo Google

Criador de jobs

SDK do Apache Beam

Notebooks

Criar pipelines do Dataflow