Panoramica di Orchestration Pipelines

Orchestration Pipelines è un framework di orchestrazione e deployment automatizzato unificato e dichiarativo ottimizzato per la gestione continua delle pipeline di dati e AI su Google Cloud.

Con Orchestration Pipelines, puoi definire le pipeline e le relative configurazioni di deployment utilizzando un linguaggio specifico del dominio (DSL) dichiarativo basato su YAML. Questo framework astrae l'infrastruttura sottostante, consentendoti di concentrarti sulla logica dei workflow di dati e AI, mentre Orchestration Pipelines gestisce il deployment, il controllo delle versioni e l'orchestrazione.

Scenari di utilizzo previsti

Orchestration Pipelines è progettato per data engineer e data scientist che devono:

  • Stabilire una CI/CD robusta per le pipeline di dati: convalida ed esegui automaticamente il deployment delle pipeline ogni volta che vengono eseguiti commit delle modifiche in un repository.
  • Gestire più ambienti di deployment: gestisci configurazioni separate per gli ambienti di sviluppo, gestione temporanea e produzione, ognuno con le proprie impostazioni e risorse di esecuzione.
  • Creare pipeline utilizzando gli strumenti preferiti: utilizza gli IDE (come Colab, VS Code o JupyterLab) e i linguaggi che preferisci per sviluppare pipeline che vengono eseguite su motori diversi.
  • Garantire la coerenza del deployment: utilizza bundle di pipeline con controllo delle versioni per assicurarti che tutte le risorse e le configurazioni per una release specifica vengano eseguite e di cui venga eseguito il deployment insieme.

Funzionalità chiave del prodotto

  • DSL dichiarativo: un linguaggio basato su YAML per definire pipeline, azioni e configurazioni di deployment.
  • Ambienti di deployment: supporto per più ambienti, ognuno configurato con il proprio ambiente di esecuzione (ad esempio Managed Service for Apache Airflow) e spazio di archiviazione degli artefatti.
  • Bundle di pipeline con controllo delle versioni e riproducibilità: pacchetti con controllo delle versioni contenenti definizioni di pipeline e risorse associate (come script Python) di cui viene eseguito il deployment come singola unità. Ogni deployment viene monitorato, il che semplifica il rollback o la riproduzione di esecuzioni specifiche.
  • Sostituzione delle variabili e gestione dei secret: sistema flessibile per la parametrizzazione delle pipeline utilizzando variabili personalizzate, variabili di ambiente e secret dei provider CI/CD.
  • Strumenti di convalida: comandi integrati per verificare la sintassi e la correttezza semantica delle pipeline prima del deployment.
  • Trigger manuali e pianificati: supporto sia per la pianificazione automatizzata sia per l'esecuzione manuale delle pipeline.

Framework e integrazioni supportati

Orchestration Pipelines è progettato per integrarsi con un'ampia varietà di strumenti e servizi:

  • Motori di orchestrazione: Managed Service for Apache Airflow (Gen 2 e Gen 3), incluso il supporto per Airflow 2 e Airflow 3.
  • Motori di calcolo e dati: BigQuery, Managed Service for Apache Spark, Managed Service for Apache Spark, Dataform, DBT.
  • Ambienti di sviluppo: VS Code e Antigravity tramite l'estensione Google Cloud Data Agent Kit.
  • Provider Git: GitHub.