流水线效果概览

本页面介绍了 Cloud Data Fusion 中流水线处理的基本术语和概念。

流水线性能取决于以下几个方面:

  • 数据的大小和特征
  • 流水线的结构
  • 集群大小调整
  • Cloud Data Fusion 流水线使用的插件

Cloud Data Fusion 中的流水线处理术语

以下术语适用于 Cloud Data Fusion 中的流水线处理。

机器类型
使用的虚拟机 (VM) 的类型(CPU、内存)。
集群
一组虚拟机,它们协同工作以处理大规模数据处理任务。
主节点和工作器节点
可以进行处理的物理或虚拟机。主节点通常负责协调工作。工作器节点运行执行器来处理数据。它们具有机器特征(可供进程使用的内存量和 vCore 数)。
vCore、Core 或 CPU
用于执行计算的资源。通常,您的节点会提供一定数量的 Core,而您的执行器会请求一个或几个 CPU。请在内存方面保持平衡,否则可能会导致集群利用率不足。
驱动器
充当整个集群的中央协调器的单个虚拟机。它负责管理任务、在工作器节点之间安排工作,并监控作业进度。
执行器
多个虚拟机,它们按照驱动器的指示执行实际的数据处理任务。您的数据会进行分区并分布在这些执行器中,以进行并行处理。如需利用所有执行器,您必须有足够的分区。
分区
数据集会 拆分为多个分区,以便并行处理数据。如果您没有足够的分区,则无法充分利用整个集群。

性能优化概览

流水线可在机器集群中执行。当您选择在 Managed Service for Apache Spark 集群(推荐的预配工具)上运行 Cloud Data Fusion 流水线时,它会在后台使用 YARN(Yet Another Resource Negotiator,又一个资源协商器)。Managed Service for Apache Spark 利用 YARN 在集群内进行资源管理。当您将 Cloud Data Fusion 流水线提交到 Managed Service for Apache Spark 集群时,底层 Apache Spark 作业会利用 YARN 进行资源分配和任务调度。

集群由主节点和工作器节点组成。主节点通常负责协调工作,而工作器节点则执行实际工作。 集群通常包含少量主节点(一个或三个)和大量工作器节点。YARN 用作工作协调系统。YARN 在主节点上运行 Resource Manager 服务,而在每个工作器节点上运行节点管理器服务。资源管理器在所有节点管理器之间进行协调,以确定在集群中的何处创建和执行容器。

YARN 资源管理器和节点管理器

在每个工作器节点上,节点管理器都会预留一部分可用的机器内存和 CPU,用于运行 YARN 容器。例如,在 Managed Service for Apache Spark 集群上,如果您的工作器节点是 n1-standard-4 虚拟机(4 个 CPU,15 GB 内存),则每个节点管理器都会预留 4 个 CPU 和 12 GB 内存,用于运行 YARN 容器。剩余的 3 GB 内存将留给在该节点上运行的其他 Hadoop 服务。

当流水线在 YARN 上运行时,它会在 Managed Service for Apache Spark 中启动流水线工作流驱动器、Spark 驱动器和许多 Spark 执行器。

驱动程序和执行器

工作流驱动器负责启动构成流水线的一个或多个 Spark 程序。工作流驱动器通常不会执行太多工作。每个 Spark 程序都会运行一个 Spark 驱动器和多个 Spark 执行器。驱动器负责协调执行器之间的工作,但通常不会执行任何实际工作。大多数实际工作都由 Spark 执行器执行。

后续步骤