Visão geral da orquestração de pipelines

O Orquestração de Pipelines é um framework de orquestração e implantação automatizada unificado e declarativo otimizado para gerenciar pipelines de dados e de IA noGoogle Cloud.

Com a Orquestração de Pipelines, é possível definir seus pipelines e as configurações de implantação usando uma linguagem específica de domínio (DSL, na sigla em inglês) declarativa baseada em YAML. Esse framework abstrai a infraestrutura subjacente, permitindo que você se concentre na lógica dos fluxos de trabalho de dados e de IA, enquanto a Orquestração de Pipelines processa a implantação, o controle de versões e a orquestração.

Casos de uso pretendidos

O Orquestração de Pipelines foi projetado para engenheiros e cientistas de dados que precisam:

  • Estabelecer CI/CD robusto para pipelines de dados:valide e implante pipelines automaticamente sempre que as mudanças forem confirmadas em um repositório.
  • Gerenciar vários ambientes de implantação:mantenha configurações separadas para ambientes de desenvolvimento, preparo e produção, cada um com as próprias configurações e recursos do executor.
  • Criar pipelines usando as ferramentas preferidas:use os IDEs (como Colab, VS Code ou JupyterLab) e as linguagens de sua preferência para desenvolver pipelines que são executados em diferentes mecanismos.
  • Garantir a consistência da implantação:use pacotes de pipeline com controle de versão para garantir que todos os recursos e configurações de uma versão específica sejam implantados e executados juntos.

Principais recursos do produto

  • DSL declarativa:uma linguagem baseada em YAML para definir pipelines, ações e configurações de implantação.
  • Ambientes de implantação:suporte para vários ambientes, cada um configurado com o próprio ambiente de executor (como o Serviço Gerenciado para Apache Airflow) e armazenamento de artefatos.
  • Pacotes de pipeline com controle de versão e capacidade de reprodução:pacotes com controle de versão que contêm definições de pipeline e recursos associados (como scripts Python) que são implantados como uma única unidade. Cada implantação é rastreada, facilitando a reverter ou reprodução de execuções específicas.
  • Substituição de variáveis e gerenciamento de secrets:sistema flexível para parametrizar pipelines usando variáveis personalizadas, variáveis de ambiente e secrets de provedores de CI/CD.
  • Ferramentas de validação:comandos integrados para verificar a sintaxe e a correção semântica dos pipelines antes da implantação.
  • Acionadores manuais e programados:suporte para programação automatizada e execução manual de pipelines.

Frameworks e integrações compatíveis

O Orquestração de Pipelines foi projetado para ser integrado a uma grande variedade de ferramentas e serviços:

  • Mecanismos de orquestração:Serviço Gerenciado para Apache Airflow (geração 2 e geração 3), incluindo suporte para Airflow 2 e Airflow 3.
  • Mecanismos de computação e dados:BigQuery, Serviço Gerenciado para Apache Spark, Serviço Gerenciado para Apache Spark, Dataform, DBT.
  • Ambientes de desenvolvimento:VS Code e Antigravity pela extensão do Google Cloud Data Agent Kit.
  • Provedores do Git:GitHub.