O serviço do Dataflow executa pipelines definidos pelo SDK do Apache Beam. No entanto, para muitos casos de uso, não é necessário escrever código com o SDK, porque o Dataflow oferece várias opções sem código e com pouco código.
Modelos. O Dataflow oferece modelos pré-criados para mover dados de um produto para outro. Por exemplo, é possível usar um modelo para mover dados do Pub/Sub para o BigQuery.
Criador de jobs. O criador de jobs é uma UI visual para criar pipelines do Dataflow no consoleGoogle Cloud . Ele é compatível com um subconjunto de origens e destinos do Apache Beam, além de transformações como junções, funções do Python e consultas SQL. Recomendamos o criador de jobs para casos de uso simples, como movimentação de dados.
Transformações prontas para uso para ML. Para pipelines de machine learning (ML), o Dataflow oferece transformações prontas para uso que exigem um mínimo de código para configuração. Para começar, execute um notebook de exemplo de ML no Google Colab. Para saber mais, consulte a visão geral do Dataflow ML.
SDK do Apache Beam. Para aproveitar todo o poder do Apache Beam, use o SDK para escrever um pipeline personalizado em Python, Java ou Go.
Para ajudar na sua decisão, a tabela a seguir lista alguns exemplos comuns.
| O que você quer fazer? | Abordagem recomendada |
|---|---|
| Mova dados de uma origem para um coletor, sem lógica personalizada. |
Recomendamos começar com o criador de jobs. Se o criador de jobs não for compatível com seu caso de uso, verifique se há um modelo para ele. |
| Mova dados de uma origem para um destino e aplique lógica personalizada usando funções do Python ou SQL. | Criador de jobs |
| Usar um modelo de ML no meu pipeline ou preparar meus dados para treinamento ou inferência. | Transformações prontas para uso da ML do Dataflow |
| Escrever um pipeline que exija recursos mais avançados do Apache Beam. | SDK do Apache Beam para Java, Python ou Go |
A seguir
- Comece com um caso de uso e uma abordagem específicos do Dataflow:
- Confira mais casos de uso do Dataflow.
- Saiba mais sobre como criar pipelines.