Orchestration Pipelines est un framework d'orchestration et de déploiement automatisé unifié et déclaratif, optimisé pour gérer de manière transparente les pipelines de données et d'IA sur Google Cloud.
Avec Orchestration Pipelines, vous pouvez définir vos pipelines et leurs configurations de déploiement à l'aide d'un langage spécifique au domaine (DSL) déclaratif basé sur YAML. Ce framework extrait l'infrastructure sous-jacente, ce qui vous permet de vous concentrer sur la logique de vos workflows de données et d'IA, tandis qu'Orchestration Pipelines gère le déploiement, le contrôle des versions et l'orchestration.
Cas d'utilisation prévus
Orchestration Pipelines est conçu pour les ingénieurs de données et les data scientists qui doivent :
- Établir une intégration continue/déploiement continu (CI/CD) robuste pour les pipelines de données : valider et déployer automatiquement les pipelines chaque fois que des modifications sont validées dans un dépôt.
- Gérer plusieurs environnements de déploiement : maintenir des configurations distinctes pour les environnements de développement, de préproduction et de production, chacun avec ses propres paramètres et ressources d'exécuteur.
- Créer des pipelines à l'aide des outils de leur choix : utiliser les IDE (tels que Colab, VS Code ou JupyterLab) et les langages de leur choix pour développer des pipelines qui s'exécutent sur différents moteurs.
- Assurer la cohérence du déploiement : utiliser des bundles de pipelines avec contrôle des versions pour s'assurer que tous les éléments et configurations d'une version spécifique sont déployés et exécutés ensemble.
Principales fonctionnalités du produit
- DSL déclaratif : langage basé sur YAML pour définir des pipelines, des actions et des configurations de déploiement.
- Environnements de déploiement : prise en charge de plusieurs environnements, chacun configuré avec son propre environnement d'exécuteur (tel que Managed Service pour Apache Airflow) et son propre stockage d'artefacts.
- Bundles de pipelines avec contrôle des versions et reproductibilité : packages avec contrôle des versions contenant des définitions de pipelines et des éléments associés (tels que des scripts Python) qui sont déployés en tant qu'unité unique. Chaque déploiement est suivi, ce qui facilite la restauration ou la reproduction d'exécutions spécifiques.
- Substitution de variables et gestion des secrets : système flexible pour paramétrer les pipelines à l'aide de variables personnalisées, de variables d'environnement et de secrets provenant de fournisseurs de CI/CD.
- Outils de validation : commandes intégrées pour vérifier la syntaxe et la correction sémantique de vos pipelines avant le déploiement.
- Déclencheurs manuels et planifiés : prise en charge de la planification automatisée et de l'exécution manuelle des pipelines.
Frameworks et intégrations compatibles
Orchestration Pipelines est conçu pour s'intégrer à une grande variété d'outils et de services :
- Moteurs d'orchestration : Managed Service pour Apache Airflow (Gen 2 et Gen 3), y compris la prise en charge d'Airflow 2 et d'Airflow 3.
- Moteurs de calcul et de données : BigQuery, Managed Service pour Apache Spark, Managed Service pour Apache Spark, Dataform, DBT.
- Environnements de développement : VS Code et Antigravity via l'extension Google Cloud Data Agent Kit.
- Fournisseurs Git : GitHub.