當您使用選用元件功能建立 Managed Service for Apache Spark 叢集時,可以安裝 Apache Pig 等其他元件。本頁說明 Pig 元件,這是用來分析大型資料集的開放原始碼平台。
安裝元件
請在建立 Managed Service for Apache Spark 叢集時安裝元件。
Apache Pig 是 Managed Service for Apache Spark 2.3 和更新版本映像檔的選用元件。
如要瞭解最新 Managed Service for Apache Spark 映像檔版本中包含的元件版本,請參閱「支援的 Managed Service for Apache Spark 版本」。
gcloud
如要建立包含 Pig 元件的 Managed Service for Apache Spark 叢集,請使用 gcloud dataproc clusters create CLUSTER_NAME 指令搭配 --optional-components 旗標 (請使用 2.3 以上版本的映像檔)。
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=PIG \ --image-version=2.3 \ ... other flags
REST API
您可以透過 Managed Service for Apache Spark API,使用 SoftwareConfig.Component 做為 clusters.create 要求的一部分,指定 Pig 元件。
控制台
啟用元件:
- 在 Google Cloud 控制台中,開啟 Managed Service for Apache Spark 的「建立叢集」頁面。系統會選取「Set up cluster」(設定叢集) 面板。
- 在「Components」(元件) 部分的「Optional components」(選用元件) 下方,選取要安裝在叢集上的 Pig 和其他選用元件。