Orchestration Pipelines è un framework di orchestrazione e deployment automatizzato unificato e dichiarativo ottimizzato per la gestione continua delle pipeline di dati e AI su Google Cloud.
Con Orchestration Pipelines, puoi definire le pipeline e le relative configurazioni di deployment utilizzando un linguaggio specifico del dominio (DSL) dichiarativo basato su YAML. Questo framework astrae l'infrastruttura sottostante, consentendoti di concentrarti sulla logica dei workflow di dati e AI, mentre Orchestration Pipelines gestisce il deployment, il controllo delle versioni e l'orchestrazione.
Scenari di utilizzo previsti
Orchestration Pipelines è progettato per data engineer e data scientist che devono:
- Stabilire una CI/CD robusta per le pipeline di dati: convalida ed esegui automaticamente il deployment delle pipeline ogni volta che vengono eseguiti commit delle modifiche in un repository.
- Gestire più ambienti di deployment: gestisci configurazioni separate per gli ambienti di sviluppo, gestione temporanea e produzione, ognuno con le proprie impostazioni e risorse di esecuzione.
- Creare pipeline utilizzando gli strumenti preferiti: utilizza gli IDE (come Colab, VS Code o JupyterLab) e i linguaggi che preferisci per sviluppare pipeline che vengono eseguite su motori diversi.
- Garantire la coerenza del deployment: utilizza bundle di pipeline con controllo delle versioni per assicurarti che tutte le risorse e le configurazioni per una release specifica vengano eseguite e di cui venga eseguito il deployment insieme.
Funzionalità chiave del prodotto
- DSL dichiarativo: un linguaggio basato su YAML per definire pipeline, azioni e configurazioni di deployment.
- Ambienti di deployment: supporto per più ambienti, ognuno configurato con il proprio ambiente di esecuzione (ad esempio Managed Service for Apache Airflow) e spazio di archiviazione degli artefatti.
- Bundle di pipeline con controllo delle versioni e riproducibilità: pacchetti con controllo delle versioni contenenti definizioni di pipeline e risorse associate (come script Python) di cui viene eseguito il deployment come singola unità. Ogni deployment viene monitorato, il che semplifica il rollback o la riproduzione di esecuzioni specifiche.
- Sostituzione delle variabili e gestione dei secret: sistema flessibile per la parametrizzazione delle pipeline utilizzando variabili personalizzate, variabili di ambiente e secret dei provider CI/CD.
- Strumenti di convalida: comandi integrati per verificare la sintassi e la correttezza semantica delle pipeline prima del deployment.
- Trigger manuali e pianificati: supporto sia per la pianificazione automatizzata sia per l'esecuzione manuale delle pipeline.
Framework e integrazioni supportati
Orchestration Pipelines è progettato per integrarsi con un'ampia varietà di strumenti e servizi:
- Motori di orchestrazione: Managed Service for Apache Airflow (Gen 2 e Gen 3), incluso il supporto per Airflow 2 e Airflow 3.
- Motori di calcolo e dati: BigQuery, Managed Service for Apache Spark, Managed Service for Apache Spark, Dataform, DBT.
- Ambienti di sviluppo: VS Code e Antigravity tramite l'estensione Google Cloud Data Agent Kit.
- Provider Git: GitHub.