Managed Service for Apache Spark 组件

本文档简要介绍了 Managed Service for Apache Spark 集群中提供的不同类型的组件。了解这些组件对于配置集群以包含大数据工作负载所需的工具和服务至关重要。Managed Service for Apache Spark 组件分为已安装组件、可选组件或初始化操作组件。

组件类型

Managed Service for Apache Spark 集群具有以下类型的组件:

  • 已安装组件:在映像中安装并在创建集群时激活的组件。

  • 可选组件:在创建集群时选择要在集群上安装和使用的组件。Managed Service for Apache Spark 会根据集群映像版本安装和激活可选组件,如下所示:

    • 2.2 及更低版本的映像 :系统会自动安装可选组件。在创建集群时,系统会激活所选的可选组件,并卸载未选定的可选组件。

    • 2.3 及更高版本的映像 :除了 Jupyter、Iceberg 和 Delta Lake 可选组件之外,所有可选组件都会在创建集群期间安装,这些组件已预安装在 2.3 及更高版本的映像中。如果 2.3 或更高版本的映像集群在创建时未启用预安装的可选组件,则这些组件会从该集群中移除。如需了解详情,请参阅 Managed Service for Apache Spark 2.3.x 发布版本

  • 初始化操作组件:在创建集群时指定的 初始化操作 的一部分安装在集群上的组件。

可选组件会在集群上运行 初始化操作 之前安装在集群上。

Managed Service for Apache Spark 映像版本页面 列出了最新 Managed Service for Apache Spark 映像版本中提供的组件和组件类型。

与用于安装组件的初始化操作相比,可选组件具有以下优势:

  • 可选组件经过测试,与特定的 Managed Service for Apache Spark 版本兼容。
  • 可选组件通过集群创建参数启用;初始化操作需要脚本。

可用的可选组件

可选组件 Google Cloud CLI 命令和 API 请求中的
组件名称
映像版本 发布阶段
Delta Lake DELTA 2.2.46 及更高版本 GA
Docker DOCKER 1.5 及更高版本 GA
Flink FLINK 1.5 及更高版本 GA
HBase HBASE 1.5 及更高版本
(在 2.1 及更高版本中不可用)
已弃用
Hive WebHCat HIVE_WEBHCAT 1.3 及更高版本 GA
Hudi HUDI 1.5 及更高版本 GA
Iceberg ICEBERG 2.2 及更高版本 GA
Jupyter 笔记本 JUPYTER 1.3 及更高版本 GA
PIG 1.5* 及更高版本 GA
Presto PRESTO 1.3 及更高版本
(在 2.1 及更高版本中不可用)
GA
Ranger RANGER 1.3 及更高版本 GA
Solr SOLR 1.3 及更高版本 GA
Trino TRINO 2.1 及更高版本 GA
Zeppelin 笔记本 ZEPPELIN 1.3 及更高版本 GA
ZooKeeper ZOOKEEPER 1.0 及更高版本 GA

注意:

  • Apache Pig 是 2.3 及更高版本映像中的可选组件。它已预安装在 2.2 及更低版本的映像中。

添加可选组件

控制台

  1. 在 Google Cloud 控制台中,前往 Managed Service for Apache Spark 创建集群 页面。

    前往“创建集群”

    设置集群面板已处于选中状态。

  2. 组件部分的可选组件下,选择一个或多个要在集群上安装的组件。

Google Cloud CLI

要创建 Managed Service for Apache Spark 集群并在集群上安装一个或多个 可选组件,请使用 gcloud beta dataproc clusters create cluster-name 命令和 --optional-components 标志。

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

REST API

可通过 Managed Service for Apache Spark API 在 SoftwareConfig.Component 请求中使用 clusters.create 来指定可选组件。