Serverless for Apache Spark 自动扩缩

本文档介绍了 Google Cloud Serverless for Apache Spark 的自动扩缩功能。 在提交 Spark 工作负载时,Serverless for Apache Spark 可以动态扩缩工作负载资源(例如执行程序的数量), 以便高效地运行工作负载。Serverless for Apache Spark 自动扩缩是 默认行为,它使用 Spark 动态资源分配 来确定是否扩缩工作负载、如何扩缩工作负载以及何时扩缩工作负载。

Serverless for Apache Spark 自动扩缩 V2

Serverless for Apache Spark 自动扩缩版本 2 (V2) 在默认版本 1 (V1) 的基础上添加了功能和改进 ,可帮助您管理 Serverless for Apache Spark 工作负载、提高 工作负载性能并节省费用:

  • 异步节点缩容:自动扩缩 V2 将 V1 的同步 缩容替换为异步缩容。使用异步缩容时, Serverless for Apache Spark 会缩容工作负载资源,而无需等待所有节点 完成混洗迁移。这意味着缩容速度较慢的长尾节点 不会阻止扩容。
  • 智能缩容节点选择:自动扩缩 V2 将 V1 的 随机节点选择替换为智能算法,该算法可识别最适合先缩容的 节点。此算法会考虑节点混洗数据大小和空闲时间等因素。
  • 可配置的 Spark 优雅退役和混洗迁移行为: 自动扩缩 V2 可让您使用标准 Spark 属性来配置 Spark 优雅 退役和混洗迁移。此功能可帮助 您保持与自定义 Spark 属性的迁移兼容性。

Serverless for Apache Spark 自动扩缩功能

功能 Serverless for Apache Spark 自动扩缩 V1 Serverless for Apache Spark 自动扩缩 V2
节点缩容 同步 异步
缩容的节点选择 随机 智能
Spark 优雅退役和混洗迁移 不可配置 可配置

Spark 动态分配属性

下表列出了 Spark 动态分配 属性,您可以在提交批处理工作负载时设置这些属性来控制自动扩缩(请参阅 如何设置 Spark 属性)。

属性 说明 默认
spark.dataproc.scaling.version Serverless for Apache Spark Spark 自动扩缩版本。指定 版本 12(请参阅 Serverless for Apache Spark 自动扩缩 V2)。 1
spark.dynamicAllocation.enabled 是否使用动态资源分配,该分配会根据工作负载扩缩执行程序的数量。 将值设置为 false 会停用工作负载的自动扩缩 。默认值:true true
spark.dynamicAllocation.initialExecutors 分配给工作负载的执行程序的初始数量。工作负载启动后,自动扩缩可能会更改活跃执行程序的数量。最小值为 2;最大值为 2000 2
spark.dynamicAllocation.minExecutors 工作负载可以缩容到的最小执行程序数量。 最小值为 2 2
spark.dynamicAllocation.maxExecutors 工作负载可以扩容到的最大执行程序数量。 最大值为 2000 1000
spark.dynamicAllocation.executorAllocationRatio 自定义 Spark 工作负载的扩容。接受介于 01 之间的值。值为 1.0 时,可提供最大的扩容能力,并有助于实现最大 并行度。值为 0.5 时,扩容能力和 并行度将设置为最大值的一半。 0.3
spark.reducer.fetchMigratedShuffle.enabled 设置为 true 时,如果从因 Spark 动态分配而退役的执行程序提取失败,则可以从 Spark 驱动程序提取混洗输出位置。这样可以减少因混洗块从退役的执行程序迁移到活跃的执行程序而导致的 ExecutorDeadException 错误,并减少因 FetchFailedException 错误而导致的任务重试(请参阅 由 ExecutorDeadException 导致的)。 此属性适用于 Serverless for Apache Spark Spark 运行时 版本 1.1.12 及更高版本和 2.0.20 及更高版本。 false

Spark 动态分配指标

Spark 批处理工作负载会生成以下与 Spark 动态 资源分配相关的指标(如需详细了解 Spark 指标,请参阅 监控和检测)。

指标 说明
maximum-needed 在当前负载下满足 所有正在运行和待处理任务所需的最大执行程序数量。
running 正在执行任务的执行程序的数量。

Spark 动态分配问题和解决方案

  • 由 ExecutorDeadException 导致的 FetchFailedException

    原因:当 Spark 动态分配缩容执行程序时,混洗文件会迁移到 活跃的执行程序。但是,由于执行程序上的 Spark reducer 任务会从 reducer 任务启动时由 Spark 驱动程序设置的位置提取混洗 输出,因此,如果 混洗文件已迁移,reducer 可以继续尝试 从退役的执行程序提取混洗输出,从而导致 ExecutorDeadExceptionFetchFailedException 错误。

    解决方案:运行 Serverless for Apache Spark 批处理工作负载时,将 spark.reducer.fetchMigratedShuffle.enabled设置为true,以启用混洗位置重新提取(请参阅 设置 Spark 批处理工作负载属性)。 启用此属性后,如果从退役的执行程序提取失败,reducer 任务会从驱动程序重新提取混洗输出 位置。