Dataproc on GKE 節點集區

建立更新 Dataproc on GKE 虛擬叢集時,需指定一或多個節點集區供虛擬叢集執行工作,而該叢集便因此由指定節點集區「使用」或與其建立「關聯」。如果 GKE 叢集內沒有指定的節點集區,Dataproc on GKE 會在 GKE 叢集上建立節點集區,並採用您指定的設定值。如果有 Dataproc 所建立的節點集區,系統會加以驗證並確認其設定是否符合指定值。

Dataproc on GKE 節點集區設定

您可以為 Dataproc on GKE 虛擬叢集使用的節點集區指定下列設定 (這些參數為 GKE 節點集區設定的部分選項):

  • accelerators
  • acceleratorCount
  • acceleratorType
  • gpuPartitionSize*
  • localSsdCount
  • machineType
  • minCpuPlatform
  • minNodeCount
  • maxNodeCount
  • preemptible
  • spot*

附註:

刪除節點集區

刪除 Dataproc on GKE 叢集時,該叢集所使用的節點集區不會一併刪除。如要刪除 Dataproc on GKE 叢集不再使用的節點集區,請參閱「刪除節點集區」。

節點集區位置

建立或更新虛擬叢集時,可以指定 Dataproc on GKE 虛擬叢集關聯節點集區的可用區位置。節點集區的可用區必須位於關聯虛擬叢集的所在區域中。

角色與節點集區的對應關係

節點集區角色適用於 Spark 驅動程式與執行器工作,而每個節點集區都會定義一個預設角色,適用於所有工作類型。在 Dataproc on GKE 叢集中,必須至少指派一個節點集區擔任 default 角色;其他角色則可視情況自行指派。

建議:為每種角色類型建立個別節點集區,並根據角色需求設定節點類型和大小。

建立 gcloud CLI 虛擬叢集的操作範例:

gcloud dataproc clusters gke create "${DP_CLUSTER}" \
  --region=${REGION} \
  --gke-cluster=${GKE_CLUSTER} \
  --spark-engine-version=latest \
  --staging-bucket=${BUCKET} \
  --pools="name=${DP_POOLNAME},roles=default \
  --setup-workload-identity
  --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
  --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
  --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"