Orchestration Pipelines 是一种统一的声明式编排和自动化部署框架,经过优化,可在Google Cloud上无缝管理数据和 AI 流水线。
借助 Orchestration Pipelines,您可以使用基于声明式 YAML 的网域特定语言 (DSL) 来定义流水线及其部署配置。此框架可抽象化底层基础架构,让您专注于数据和 AI 工作流的逻辑,而 Orchestration Pipelines 则负责处理部署、版本控制和编排。
预期使用场景
Orchestration Pipelines 专为需要执行以下操作的数据工程师和数据科学家而设计:
- 为数据流水线建立强大的 CI/CD:每当更改提交到代码库时,自动验证和部署流水线。
- 管理多个部署环境:为开发、预演和生产环境分别维护单独的配置,每个环境都有自己的 Runner 设置和资源。
- 使用首选工具构建流水线:使用您选择的 IDE(例如 Colab、VS Code 或 JupyterLab)和语言来开发可在不同引擎上运行的流水线。
- 确保部署一致性:使用版本化流水线软件包,确保特定版本的所有资源和配置一起部署和执行。
主要产品功能
- 声明式 DSL:一种基于 YAML 的语言,用于定义流水线、操作和部署配置。
- 部署环境:支持多个环境,每个环境都配置有自己的运行程序环境(例如 Managed Service for Apache Airflow)和制品存储空间。
- 具有版本控制和可重现性的流水线软件包:包含流水线定义和相关资源(如 Python 脚本)的版本化软件包,可作为单个单元进行部署。系统会跟踪每次部署,以便轻松回滚或重现特定运行。
- 变量替换和 Secret 管理:灵活的系统,可使用自定义变量、环境变量和来自 CI/CD 提供商的 Secret 对流水线进行参数化。
- 验证工具:内置命令,可在部署前检查流水线的语法和语义正确性。
- 手动触发器和预定触发器:支持自动安排流水线执行时间和手动执行流水线。
支持的框架和集成
Orchestration Pipelines 旨在与各种工具和服务集成:
- 编排引擎:Managed Service for Apache Airflow(第 2 代和第 3 代),包括对 Airflow 2 和 Airflow 3 的支持。
- 计算和数据引擎:BigQuery、Managed Service for Apache Spark、Managed Service for Apache Spark、Dataform、DBT。
- 开发环境:VS Code 和 Antigravity(通过 Google Cloud Data Agent Kit 扩展程序)。
- Git 提供商:GitHub。