單一節點叢集

單一節點叢集是只有一個節點的 Dataproc 叢集,這個節點同時是 Dataproc 叢集的主要和 worker 節點。雖然單一節點叢集只有一個節點,但除了下方所列出的項目外,大部分的 Dataproc 概念與功能仍然適用。

以下幾種情況適合採用單一節點 Dataproc 叢集:

  • 試用新版 Spark 和 Hadoop,或其他開放原始碼元件
  • 建構概念驗證 (PoC) 示範
  • 輕量級資料科學
  • 小規模一般資料處理
  • 與 Spark 和 Hadoop 生態系統相關的教育

單一節點叢集元件資訊

以下是適用於單一節點 Dataproc 叢集的元件資訊:

  • 單一節點叢集的設定與多節點 Dataproare 叢集相同,並包含 HDFS 和 YARN 等服務。
  • 系統回報時,會將這類叢集視為初始化動作的主要節點。
  • 單一節點同時是主要和 worker 節點,因此叢集會顯示 0 個 worker。
  • 單一節點叢集的主機命名模式為:clustername-m。您可以使用這個主機名稱,透過 SSH 登入或連線至節點上的網頁 UI
  • 單一節點叢集無法升級為多節點叢集。建立後,單一節點叢集就僅限於一個節點。同樣地,多節點叢集也無法縮減為單一節點叢集。

限制

  • 不建議使用單一節點叢集大規模平行處理資料。如果超出單一節點叢集的資源,建議採用多節點 Dataproc 叢集。

  • 由於叢集只有一個節點,高可用性不適用於單一節點叢集。

  • 單一節點叢集無法使用先占 VM

建立單一節點叢集

gcloud 指令

您可以透過 gcloud 指令列工具建立單一節點 Dataproc 叢集。建立單一節點叢集時,請將 --single-node 旗標傳遞至 gcloud dataproc clusters create 指令。

gcloud dataproc clusters create cluster-name \
    --region=region \
    --single-node \
    ... other args

REST API

您可以透過 Dataproc REST API 發出 clusters.create 要求,即可建立單一節點叢集,但發出要求時請注意下列事項:

  1. 必須為叢集要求的 SoftwareConfig 新增 "dataproc:dataproc.allow.zero.workers":"true" 屬性。
  2. 請勿提交 workerConfigsecondaryWorkerConfig 的值 (請參閱 ClusterConfig)。

控制台

如要建立單一節點叢集,請前往 Dataproc 的「Create a cluster」(建立叢集) 頁面,然後在「Set up cluster」(設定叢集) 面板的「Cluster type」(叢集類型) 部分選取「Single Node (1 master, 0 workers)」(單一節點 (1 個主要,0 個 worker 節點))。