Dataproc 選用 Pig 元件

當您使用選用元件功能建立 Dataproc 叢集時,可以安裝 Apache Pig 等其他元件。本頁說明 Pig 元件,這是用來分析大型資料集的開放原始碼平台。

安裝元件

請在建立 Dataproc 叢集時安裝元件。

Apache Pig 是 Dataproc 2.3 和更新版本映像檔的選用元件。

如要瞭解最新 Dataproc 映像檔版本中包含的元件版本,請參閱「支援的 Dataproc 版本」。

gcloud

如要建立包含 Pig 元件的 Dataproc 叢集,請使用 gcloud dataproc clusters create CLUSTER_NAME 指令搭配 --optional-components 旗標 (請使用 2.3 以上版本的映像檔)。

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

REST API

您可以透過 Dataproc API,使用 SoftwareConfig.Component 做為 clusters.create 要求的一部分,指定 Pig 元件。

控制台

啟用元件:

  1. 在 Google Cloud 控制台中,開啟 Dataproc 的「Create a cluster」(建立叢集) 頁面。系統已選取「Set up cluster」(設定叢集) 面板。
  2. 在「Components」(元件) 部分的「Optional components」(選用元件) 下方,選取要安裝在叢集上的 Pig 和其他選用元件。