Dataproc 叢集包含下列類型的元件:
已安裝的元件:安裝在映像檔中,會在建立叢集時啟用的元件。
選用元件:在建立叢集時選取要安裝並使用的元件。Dataproc 會根據叢集映像檔版本來安裝並啟用選用元件,如下所示:
2.2及更早的映像檔版本:系統會自動安裝選用元件。建立叢集時,系統會啟用選取的選用元件,並解除安裝未選取的選用元件。2.3以上版本的映像檔:除了2.3以上版本映像檔預先安裝的 Jupyter、Iceberg 和 Delta Lake 選用元件外,所有選用元件都會在叢集建立過程中安裝。在2.3以上版本的映像檔叢集中,預先安裝的選用元件若未在建立叢集時啟用,則會從叢集中移除。詳情請參閱「Dataproc 2.3.x 發布版本」。
初始化動作元件:這些元件安裝在叢集上,是建立叢集時所指定初始化動作的一部分。
選用元件會先安裝於叢集,然後才在叢集上執行初始化動作。
Dataproc 映像檔版本頁面會列出最新 Dataproc 映像檔版本適用的元件和元件類型。
相較於用來安裝元件的初始化動作,選用元件具有下列優點:
- 選用元件經過測試,可與特定 Dataproc 版本相容。
- 選用元件是透過叢集建立參數啟用;初始化動作則需要指令碼。
可用的選用元件
| 可用元件 | Google Cloud CLI 指令和 API 要求中的元件名稱 |
映像檔版本 | 發布階段 |
|---|---|---|---|
| Delta Lake | DELTA | 2.2.46 以上 | 正式發布版 |
| Docker | DOCKER | 1.5 以上 | 正式發布版 |
| Flink | FLINK | 1.5 以上 | 正式發布版 |
| HBase | HBASE | 1.5 以上 (不適用於 2.1 以上) |
已淘汰 |
| Hive WebHCat | HIVE_WEBHCAT | 1.3 以上 | 正式發布版 |
| Hudi | HUDI | 1.5 以上 | 正式發布版 |
| Iceberg | ICEBERG | 2.2 以上 | 正式發布版 |
| Jupyter Notebook | JUPYTER | 1.3 以上 | 正式發布版 |
| Pig | PIG | 1.5* 以上 | 正式發布版 |
| Presto | PRESTO | 1.3 以上 (不適用於 2.1 以上) |
正式發布版 |
| Ranger | RANGER | 1.3 以上 | 正式發布版 |
| Solr | SOLR | 1.3 以上 | 正式發布版 |
| Trino | TRINO | 2.1 以上 | 正式發布版 |
| Zeppelin Notebook | ZEPPELIN | 1.3 以上 | 正式發布版 |
| Zookeeper | ZOOKEEPER | 1.0 以上 | 正式發布版 |
附註:
- Apache Pig 是 2.3 以上版本的映像檔的選用元件,在
2.2及更早映像檔版本中則為預先安裝功能。
新增選用元件
控制台
- 前往 Google Cloud 控制台的 Dataproc「Create a cluster」(建立叢集)頁面。
系統已選取「Set up cluster」(設定叢集) 面板。
- 在「Components」(元件) 區段的「Optional components」(選用元件) 下方,選取要安裝在叢集上的一或多項元件。
Google Cloud CLI
如要建立 Dataproc 叢集,並在叢集上安裝一或多項選用元件,請使用 gcloud beta dataproc clusters create cluster-name 指令搭配 --optional-components 旗標。
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
REST API
您可以透過 Dataproc API,在 clusters.create 要求中納入 SoftwareConfig.Component,以指定選用元件。