关于环境扩缩

Managed Airflow(第 3 代) | Managed Airflow(第 2 代) | Managed Airflow(旧版第 1 代)

本页面介绍环境伸缩的工作原理。

其他有关伸缩的页面:

自动扩缩环境

Managed Airflow 环境会自动根据执行的 DAG 和任务的需求进行扩缩容:

  • 如果您的环境遇到高负载,Managed Airflow 会自动增加环境中的工作器数量。
  • 如果您的环境不使用某些工作器,则系统会移除这些工作器以节省环境资源和费用。
  • 您可以为环境设置工作器数量下限和上限。 Managed Airflow 会在设定的限制内自动扩缩您的环境。您可以随时调整这些限制。

系统会根据扩缩比例目标这一指标调整工作器数量。该指标的计算依据如下:

  • 当前的工作器数量
  • Celery 队列中未分配给工作器的 Celery 任务数
  • 空闲工作器数量
  • celery.worker_concurrency Airflow 配置选项

Managed Airflow 自动扩缩使用 GKE 提供的三种不同的自动扩缩器:

Managed Airflow 会在环境的集群中配置这些自动扩缩器。这会自动扩缩集群中的节点数、机器类型和工作器数量。

规模和性能参数

除了自动扩缩之外,您还可以通过调整工作器、调度器、 触发器和 Web 服务器的 CPU、内存和磁盘限制 来控制环境的规模和性能 参数。这样,除了自动伸缩功能提供的横向伸缩之外,您还可以纵向伸缩环境。您可以随时调整规模和性能参数。

您的环境的“环境大小”性能参数用于控制包含 Airflow 数据库的代管式 Managed Airflow 基础架构的性能参数。 如果您希望以更高的基础架构性能运行大量 DAG 和任务,请考虑选择较大的环境大小。例如,较大的环境大小会增加您的环境可以处理的 Airflow 任务日志条目数量,同时最大限度地减少延迟。

环境大小与环境预设不同。 环境 预设(可在 Google Cloud 控制台中创建环境时选择)确定环境的初始限制、规模和 性能参数,包括 环境大小。环境大小仅确定环境的代管式 Managed Airflow 基础架构的性能参数。

多个调度器

您的环境可以同时运行多个 Airflow 调度器 :

  • 您可以为环境设置调度器数量 ,并随时进行调整。
  • Managed Airflow 不会在您的环境中自动扩缩 调度器 的数量。

如需详细了解如何为您的环境配置调度器数量 ,请参阅 扩缩环境

数据库磁盘空间

Airflow 数据库的磁盘空间会自动增加以满足需求。

后续步骤