与 Google Cloud Serverless for Apache Spark 比较

对于依赖 Apache Spark 运行数据处理和分析工作负载的 Google Cloud 客户来说，一个关键的决定是在 Dataproc on Compute Engine（在本文档中称为“Dataproc”）和 Serverless for Apache Spark 之间做出选择。虽然这两种服务都提供托管式、高度可扩缩、可用于生产用途且安全的 Spark 环境，该环境与 OSS 兼容，并完全支持各种数据格式，但这两个平台在底层基础设施的管理和结算方式方面存在根本性差异。

本文档将 Google Cloud Serverless for Apache Spark 与 Dataproc 进行比较，并列出它们的特性和功能，以帮助您确定最佳的 Spark 工作负载解决方案。

比较 Managed Service for Apache Spark 部署

下表列出了 Managed Service for Apache Spark 集群与无服务器部署之间的主要区别。

部署	无服务器	集群
处理框架	批处理工作负载和交互式会话：Spark	Spark。其他开源框架，例如 Hive、Flink、Trino 和 Kafka
无服务器	是	否
启动时间	50 年代	120 秒
基础架构控制	否	是
资源管理	无服务器	YARN
GPU 支持	是	是
交互式会话	是	否
自定义容器	是	否
虚拟机访问权限 (SSH)	否	是
Java 版本	Java 17, 21	Java 17 及更低版本

确定最佳的 Managed Service for Apache Spark Spark 部署

本部分概述了 Managed Service for Apache Spark 的核心优势和主要使用情形，以帮助您为 Spark 工作负载选择最佳的 Managed Service for Apache Spark 部署（集群或无服务器）。

概览

Managed Service for Apache Spark 部署在控制程度、基础设施管理和结算模式方面各不相同。

无服务器部署：Managed Service for Apache Spark 提供 Spark 作业即服务，在完全托管的 Google Cloud基础设施上运行 Spark。您需要为作业运行时长付费。
集群部署：提供 Spark 集群即服务，在您的 Compute Engine 基础设施上运行托管式 Spark。您需要按集群正常运行时间付费。

由于存在这些差异，每种 Managed Service for Apache Spark 部署最适合以下应用场景：

部署	使用场景
无服务器	不同的专用作业环境调度批量工作负载代码管理优先于基础架构管理
集群	长时间运行的共享环境需要对基础设施进行精细控制的工作负载迁移旧版 Hadoop 和 Spark 环境

主要区别

功能	无服务器部署	集群部署
管理模型	全托管式无服务器执行环境。	基于集群。您负责预配和管理集群。
控制与自定义	基础设施控制权较少，专注于提交代码和指定 Spark 参数。	可更好地控制集群配置、机器类型和软件。能够使用 Spot 虚拟机，并重复使用预留和 Compute Engine 资源容量。适用于依赖于特定虚拟机配置（例如 CPU 架构）的工作负载。
使用场景	临时查询、交互式分析、新的 Spark 流水线以及资源需求不可预测的工作负载。	长时间运行的共享集群，迁移具有自定义配置的现有 Hadoop 和 Spark 工作负载，需要深度自定义的工作负载。
操作开销	开销更低。 Google Cloud 管理基础架构、伸缩和预配，实现 `NoOps` 模型。Gemini Cloud Assist 可简化问题排查流程，而无服务器自动调节有助于提供最佳性能。	开销较高，需要进行集群管理、伸缩和维护。
效率模型	无闲置计算开销：仅在作业运行时分配计算资源。没有启动和关闭费用。支持共享互动会话，以提高效率。	通过在作业和团队之间共享集群来提高效率，采用共享的多租户模型。
位置信息控制	Managed Service for Apache Spark 支持区域性工作负载，无需额外费用，可提供更高的可靠性和可获取性。	集群是可用区级的。在创建集群期间，系统可以自动选择可用区。
费用	仅根据所消耗的资源，按 Spark 作业的执行时长（不包括启动和拆解）计费。按所用数据计算单元 (DCU) 和其他基础设施费用结算。	按集群的运行时间（包括启动和关闭时间）根据节点数量收费。包括 Managed Service for Apache Spark 许可费和基础设施费用。
承诺使用折扣 (CUD)	基于支出的 BigQuery CUD 适用于 Managed Service for Apache Spark 作业。	Compute Engine CUD 适用于所有资源用量。
映像和运行时控制	用户可以固定到次要的 Managed Service for Apache Spark 运行时版本；子次要版本由 Managed Service for Apache Spark 管理。	用户可以固定到次要和子次要 Managed Service for Apache Spark 映像版本。
资源管理	无服务器	YARN
GPU 支持	是	是
互动式会话	是	否
自定义容器	是	否
虚拟机访问权限 (SSH)	否	是
Java 版本	Java `17`、`21`	支持过往版本
启动时间	50 年代	120 秒

何时选择无服务器部署

Managed Service for Apache Spark 无服务器部署可将复杂的集群管理工作抽象化，让您能够专注于 Spark 代码。因此，它非常适合用于以下数据处理场景：

临时分析和互动式分析：对于使用 Spark 运行互动式查询和探索性分析的数据科学家和分析师，无服务器模型提供了一种快速入门的方式，无需关注基础架构。
基于 Spark 的应用和流水线：在 Spark 上构建新的数据流水线或应用时，Managed Service for Apache Spark 可消除集群管理的运营开销，从而显著加快开发速度。
需求时有时无或不可预测的工作负载：对于间歇性 Spark 作业或资源需求波动的工作，无服务器自动扩缩和按用量付费的定价（按作业资源消耗量收费）可以显著降低费用。
专注于提高开发者工作效率：Managed Service for Apache Spark 无需预配和管理集群，可加快业务逻辑的创建速度，更快地提供数据洞见，并提高工作效率。
简化运营并减少开销：托管式 Apache Spark 基础架构管理可减轻运营负担并降低成本。

何时选择集群部署

您可以使用 Managed Service for Apache Spark 集群部署来运行 Apache Spark 和其他开源数据处理框架。它具有高度的控制性和灵活性，因此在以下场景中是首选：

迁移现有的 Hadoop 和 Spark 工作负载：支持将本地 Hadoop 或 Spark 集群迁移到 Google Cloud。以最少的代码更改复制现有配置，尤其是在使用旧版 Spark 时。
深度自定义和控制：可让您自定义集群机器类型、磁盘大小和网络配置。这种控制级别对于复杂、长时间运行的作业的性能调优和资源利用率优化至关重要。
长时间运行的持久性集群：支持持续运行的长时间 Spark 作业，以及适用于多个团队和项目的持久性集群。
多样化的开源生态系统：提供统一的环境，以便您使用 Hadoop 生态系统工具（例如 Hive、Pig 或 Presto）运行数据处理流水线，同时运行 Spark 工作负载。
安全合规性：可控制基础架构以满足特定的安全或合规性标准，例如保护个人身份信息 (PII) 或受保护健康信息 (PHI)。
基础架构灵活性：提供 Spot 虚拟机，并支持重复使用预留和 Compute Engine 资源容量，以平衡资源使用情况并促进云基础架构策略的实施。

总结

选择使用 Managed Service for Apache Spark 集群还是无服务器部署取决于您的工作负载要求、运营偏好和所需的控制级别。

选择 Managed Service for Apache Spark serverless，因为它易于使用，对于间歇性工作负载具有成本效益，并且能够通过消除基础设施管理开销来加快新 Spark 应用的开发速度。
如果您需要最大限度的控制权、需要迁移 Hadoop 或 Spark 工作负载，或者需要持久的自定义共享集群环境，请选择 Apache Spark 集群的托管式服务。

在评估本部分中列出的因素后，选择最有效且最具成本效益的 Managed Service for Apache Spark 部署，以运行 Spark 并充分发挥数据的潜力。

与 Google Cloud Serverless for Apache Spark 比较 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。