Managed Service for Apache Spark 可选 Pig 组件

使用可选组件功能创建 Managed Service for Apache Spark 集群时,您可以安装 Apache Pig 等其他组件。本页面介绍了 Pig 组件,这是一个用于分析大型数据集的开源平台。

安装组件

在创建 Managed Service for Apache Spark 集群时安装该组件。

Apache Pig 是 Managed Service for Apache Spark 2.3 及更高版本映像中的可选组件。

如需了解最新版 Managed Service for Apache Spark 映像版本中包含的组件版本,请参阅支持的 Managed Service for Apache Spark 版本

gcloud

如需创建包含 Pig 组件的 Managed Service for Apache Spark 集群,请将 gcloud dataproc clusters create CLUSTER_NAME 命令与 --optional-components 标志结合使用(使用映像版本 2.3 或更高版本)。

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

REST API

可通过 Managed Service for Apache Spark API 在 clusters.create 请求中使用 SoftwareConfig.Component 来指定 Pig 组件。

控制台

启用组件:

  1. 在 Google Cloud 控制台中,打开 Managed Service for Apache Spark 创建集群页面。选中“设置集群”面板。
  2. 在“组件”部分的“可选组件”下,选择 Pig 以及其他一些要在集群上安装的可选组件。