Dataproc 元件

Dataproc 叢集包含下列類型的元件:

  • 已安裝的元件:安裝在映像檔中,會在建立叢集時啟用的元件。

  • 選用元件:在建立叢集時選取要安裝並使用的元件。Dataproc 會根據叢集映像檔版本來安裝並啟用選用元件,如下所示:

    • 2.2 及更早的映像檔版本:系統會自動安裝選用元件。建立叢集時,系統會啟用選取的選用元件,並解除安裝未選取的選用元件。

    • 2.3 以上版本的映像檔:除了 2.3 以上版本映像檔預先安裝的 Jupyter、Iceberg 和 Delta Lake 選用元件外,所有選用元件都會在叢集建立過程中安裝。在 2.3 以上版本的映像檔叢集中,預先安裝的選用元件若未在建立叢集時啟用,則會從叢集中移除。詳情請參閱「Dataproc 2.3.x 發布版本」。

  • 初始化動作元件:這些元件安裝在叢集上,是建立叢集時所指定初始化動作的一部分。

選用元件會先安裝於叢集,然後才在叢集上執行初始化動作

Dataproc 映像檔版本頁面會列出最新 Dataproc 映像檔版本適用的元件和元件類型。

相較於用來安裝元件的初始化動作,選用元件具有下列優點:

  • 選用元件經過測試,可與特定 Dataproc 版本相容。
  • 選用元件是透過叢集建立參數啟用;初始化動作則需要指令碼。

可用的選用元件

可用元件 Google Cloud CLI 指令和 API 要求中的元件名稱
映像檔版本 發布階段
Delta Lake DELTA 2.2.46 以上 正式發布版
Docker DOCKER 1.5 以上 正式發布版
Flink FLINK 1.5 以上 正式發布版
HBase HBASE 1.5 以上
(不適用於 2.1 以上)
已淘汰
Hive WebHCat HIVE_WEBHCAT 1.3 以上 正式發布版
Hudi HUDI 1.5 以上 正式發布版
Iceberg ICEBERG 2.2 以上 正式發布版
Jupyter Notebook JUPYTER 1.3 以上 正式發布版
Pig PIG 1.5* 以上 正式發布版
Presto PRESTO 1.3 以上
(不適用於 2.1 以上)
正式發布版
Ranger RANGER 1.3 以上 正式發布版
Solr SOLR 1.3 以上 正式發布版
Trino TRINO 2.1 以上 正式發布版
Zeppelin Notebook ZEPPELIN 1.3 以上 正式發布版
Zookeeper ZOOKEEPER 1.0 以上 正式發布版

附註:

  • Apache Pig 是 2.3 以上版本的映像檔的選用元件,在 2.2 及更早映像檔版本中則為預先安裝功能。

新增選用元件

控制台

  1. 前往 Google Cloud 控制台的 Dataproc「Create a cluster」(建立叢集)頁面。

    前往「Create a cluster」(建立叢集)

    系統已選取「Set up cluster」(設定叢集) 面板。

  2. 在「Components」(元件) 區段的「Optional components」(選用元件) 下方,選取要安裝在叢集上的一或多項元件。

Google Cloud CLI

如要建立 Dataproc 叢集,並在叢集上安裝一或多項選用元件,請使用 gcloud beta dataproc clusters create cluster-name 指令搭配 --optional-components 旗標。

gcloud dataproc clusters create CLUSTER_NAME \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

REST API

您可以透過 Dataproc API,在 clusters.create 要求中納入 SoftwareConfig.Component,以指定選用元件。