Managed Airflow 概览

Managed Airflow(第 3 代) | Managed Airflow(第 2 代) | Managed Airflow(旧版第 1 代)

本页面简要介绍了 Airflow 和 DAG,并介绍了 Managed Airflow 的特性和功能。

如需详细了解 Managed Airflow 版本中的新功能, 请参阅 版本说明

关于 Managed Airflow

Managed Airflow 是一项全代管式工作流编排服务,可帮助您创建、安排、监控和管理跨越多个云平台和本地数据中心的工作流流水线。

Managed Airflow 在常用的 Apache Airflow 开源项目的基础上构建而成,并 支持使用 Python 编程语言进行操作。

通过使用 Managed Airflow(而不是 Apache Airflow 的本地实例),您可以从 Airflow 的强大功能中获益,而不会产生安装或管理开销。借助 Managed Airflow,您可以快速创建 Managed Airflow 环境,并使用 Airflow 原生工具(例如功能强大的 Airflow 网页界面和命令行工具),从而全力专注于工作流,而无需管理基础架构。

Managed Airflow 版本之间的差异

如需详细了解 Managed Airflow 主要版本之间的差异,请参阅 Managed Service for Apache Airflow 版本控制概览

Airflow 和 Airflow DAG(工作流)

在数据分析中, 工作流 表示用于提取、转换、分析或利用数据的一系列任务。在 Airflow 中,工作流是使用 DAG(即“有向无环图”)创建的。

DAG 与任务之间的关系
图 1.DAG 与任务之间的关系

DAGDAG 是要安排和运行的任务的集合,任务的组织方式反映了它们的关系和依赖项。DAG 是使用 Python 脚本中创建的,脚本使用代码定义 DAG 结构。DAG 的目的是确保每个任务在正确的时间以正确的顺序执行。

DAG 中的每个 任务 可以表示几乎任何事物,例如,一个任务可以执行以下任何功能:

  • 准备数据以进行提取
  • 监控 API
  • 发送电子邮件
  • 运行流水线

除了按时间表运行 DAG 之外,您还可以手动或通过事件(例如 Cloud Storage 存储桶中的更改)触发 DAG。如需了解详情,请参阅安排和触发 DAG

如需详细了解 DAG 和 任务,请参阅 Apache Airflow 文档

Managed Airflow 环境

Managed Airflow 环境是以 Google Kubernetes Engine 为基础的独立 Airflow 部署。它们使用 Airflow 内置的连接器与其他 Google Cloud 服务协同工作。您可以在任何 受支持的区域的单个 Google Cloud 项目中 创建一个或多个环境

Managed Airflow 提供用于运行 工作流和所有 Airflow 组件的 Google Cloud 服务。环境的主要组件包括:

  • GKE 集群:Airflow 调度器、触发器和工作器等 Airflow 组件作为 GKE 工作负载 在为您的环境创建的单个集群中运行,并负责 处理和执行 DAG。

    集群还托管 Composer 代理和 Airflow 监控等其他 Managed Airflow 组件,帮助管理 Managed Airflow 环境、收集存储在 Cloud Logging 中的日志以及收集 上传到 Cloud Monitoring 的指标。

  • Airflow Web 服务器:Web 服务器运行 Apache Airflow 界面。

  • Airflow 数据库:数据库存储 Apache Airflow 元数据。

  • Cloud Storage 存储桶:Managed Airflow 会将 Cloud Storage 存储桶与您的环境相关联。 此存储桶也称为“环境的存储桶”,用于存储相应环境的 DAG日志、自定义 插件和 数据。如需详细了解环境的 存储桶,请参阅 存储在 Cloud Storage 中的数据

如需深入了解环境的组成部分,请参阅 环境架构

Managed Airflow 界面

Managed Airflow 提供用于管理环境、在环境中运行的 Airflow 实例以及各个 DAG 的界面。

例如,您可以在创建和配置 Managed Airflow 环境中 Google Cloud 控制台、 Google Cloud CLI、Cloud Composer API API或 Terraform。

再举一个例子,您可以管理 DAG 从 Google Cloud 控制台、原生 Airflow 界面或通过运行 Google Cloud CLI 和 Airflow CLI 命令

Managed Airflow 中的 Airflow 功能

使用 Managed Airflow 时,您可以管理和使用 Airflow 功能,例如:

Managed Airflow 中的访问权限控制

您可以在 Google Cloud 项目级层管理安全性,还可以 分配 IAM 角色,以允许个别 用户修改或创建环境。如果某人无权访问您的项目,或者不具备适当的 Managed Airflow IAM 角色,则此人无法访问您的任何环境。

除了 IAM 之外,您还可以使用 Airflow 界面访问权限控制,该控制基于 Apache Airflow 访问权限控制模型。

如需详细了解 Managed Airflow 中的安全功能,请参阅 Managed Airflow 安全概览

环境网络

Managed Airflow 支持多种环境网络配置,并提供许多配置选项。例如,在专用 IP 环境中,DAG 和 Airflow 组件与公共互联网完全隔离。

如需详细了解 Managed Airflow 中的网络,请参阅各个网络功能的页面:

Managed Airflow 的其他功能

Managed Airflow 的其他功能包括:

常见问题解答

Managed Airflow 使用哪个版本的 Apache Airflow?

Managed Airflow 环境基于 Managed Airflow 映像。创建环境时,您可以选择具有特定 Airflow 版本的映像:

  • Managed Airflow(第 3 代)支持 Airflow 2。
  • Managed Airflow(第 2 代)支持 Airflow 2。
  • Managed Airflow(旧版第 1 代)支持 Airflow 1 和 Airflow 2。

您可以控制环境的 Apache Airflow 版本。您可以 决定将您的环境升级到更高版本的 Managed Airflow 映像。每个 Managed Airflow 版本都支持多个 Apache Airflow 版本。

我可以使用 Airflow 原生界面和 CLI 吗?

您可以访问环境的 Apache Airflow 网页界面。您的每种环境都有自己的 Airflow 界面。如需详细了解如何访问 Airflow 界面,请参阅 Airflow 网页界面

如需在您的环境中运行 Airflow CLI 命令,请使用 gcloud 命令。 如需详细了解如何在 Managed Airflow 环境中运行 Airflow CLI 命令,请参阅 Airflow 命令行界面

我可以使用自己的数据库作为 Airflow 数据库吗?

Managed Airflow 使用代管式数据库服务作为 Airflow 数据库。无法使用用户提供的数据库作为 Airflow 数据库。

我可以使用自己的集群作为 Managed Airflow 集群吗?

Managed Airflow 使用 Google Kubernetes Engine 服务来创建、管理和删除运行 Airflow 组件的环境集群。这些集群由 Managed Airflow 全代管式。

无法基于自行管理的 Google Kubernetes Engine 集群构建 Managed Airflow 环境。

我可以使用自己的容器注册表吗?

Managed Airflow 使用 Artifact Registry 服务来管理 Managed Airflow 环境使用的容器映像代码库。 无法将其替换为用户提供的容器注册表。

Managed Airflow 环境是可用区级还是区域级?

创建环境时,您需要为其指定一个区域:

  • 标准 Managed Airflow 环境具有可用区级 Airflow 数据库和多可用区 Airflow 执行层。Airflow 数据库位于指定区域的其中一个可用区中,Airflow 组件分布在多个可用区之间。
  • 高度弹性(高可用性) Managed Airflow 环境 具有多可用区 Airflow 数据库和多可用区 Airflow 执行 层。高度弹性的环境至少在所选区域的 两个可用区中运行。Managed Airflow 会自动在可用区之间分配环境的 组件。存储 Airflow 数据库的 Cloud SQL 组件具有一个主实例和一个 备用实例,它们分布在所选区域的可用区之间。

后续步骤