Orchestration Pipelines 是統一的宣告式自動化調度管理和自動部署框架,專門用來在Google Cloud上順暢管理資料和 AI 管道。
透過 Orchestration Pipelines,您可以使用以 YAML 為基礎的宣告式領域專屬語言 (DSL),定義管道及其部署設定。這個框架會將基礎架構抽象化,讓您專注於資料和 AI 工作流程的邏輯,而 Orchestration Pipelines 則會處理部署、版本控管和自動化調度管理。
預定用途情境
Orchestration Pipelines 適用於需要執行下列作業的資料工程師和資料科學家:
- 為資料管道建立強大的 CI/CD:只要將變更提交至存放區,系統就會自動驗證及部署管道。
- 管理多個部署環境:為開發、測試和正式環境分別維護設定,每個環境都有專屬的執行器設定和資源。
- 使用偏好的工具建構管道:使用您選擇的 IDE (例如 Colab、VS Code 或 JupyterLab) 和語言,開發可在不同引擎執行的管道。
- 確保部署作業一致:使用已納入版本的管道套件,確保特定版本的資產和設定會一併部署及執行。
主要產品功能
- 宣告式 DSL:以 YAML 為基礎的語言,用於定義管道、動作和部署設定。
- 部署環境:支援多個環境,每個環境都設定了自己的執行器環境 (例如 Managed Service for Apache Airflow) 和構件儲存空間。
- 具有版本控管和可重現性的管道套件:包含管道定義和相關聯資產 (例如 Python 指令碼) 的版本化套件,可做為單一單元部署。系統會追蹤每次部署作業,方便您復原或重現特定執行作業。
- 變數替代和密鑰管理:彈性系統,可使用自訂變數、環境變數和 CI/CD 供應商的密鑰,將管道參數化。
- 驗證工具:內建指令,可在部署前檢查管道的語法和語意是否正確。
- 手動和排程觸發條件:支援自動排程和手動執行管道。
支援的架構和整合功能
Orchestration Pipelines 旨在與各種工具和服務整合:
- 自動化調度管理引擎:Managed Service for Apache Airflow (第 2 代和第 3 代),包括支援 Airflow 2 和 Airflow 3。
- 運算和資料引擎:BigQuery、Managed Service for Apache Spark、Managed Service for Apache Spark、Dataform、DBT。
- 開發環境:VS Code,以及透過 Google Cloud Data Agent Kit 擴充功能的 Antigravity。
- Git 供應商:GitHub。