在建立或更新 Dataproc on GKE 虛擬叢集時,需指定一或多個節點集區供虛擬叢集執行工作,而該叢集便因此由指定節點集區「使用」或與其建立「關聯」。如果 GKE 叢集內沒有指定的節點集區,Dataproc on GKE 會在 GKE 叢集上建立節點集區,並採用您指定的設定值。如果有 Dataproc 所建立的節點集區,系統會加以驗證並確認其設定是否符合指定值。
Dataproc on GKE 節點集區設定
您可以為 Dataproc on GKE 虛擬叢集使用的節點集區指定下列設定 (這些參數為 GKE 節點集區設定的部分選項):
acceleratorsacceleratorCountacceleratorTypegpuPartitionSize*localSsdCountmachineTypeminCpuPlatformminNodeCountmaxNodeCountpreemptiblespot*
附註:
gpuPartitionSize可以在 Dataproc APIGkeNodePoolAcceleratorConfig中設定。spot可以在 Dataproc API GkeNodeConfig 中設定。
刪除節點集區
刪除 Dataproc on GKE 叢集時,該叢集所使用的節點集區不會一併刪除。如要刪除 Dataproc on GKE 叢集不再使用的節點集區,請參閱「刪除節點集區」。
節點集區位置
建立或更新虛擬叢集時,可以指定 Dataproc on GKE 虛擬叢集關聯節點集區的可用區位置。節點集區的可用區必須位於關聯虛擬叢集的所在區域中。
角色與節點集區的對應關係
節點集區角色適用於 Spark 驅動程式與執行器工作,而每個節點集區都會定義一個預設角色,適用於所有工作類型。在 Dataproc on GKE 叢集中,必須至少指派一個節點集區擔任 default 角色;其他角色則可視情況自行指派。
建議:為每種角色類型建立個別節點集區,並根據角色需求設定節點類型和大小。
建立 gcloud CLI 虛擬叢集的操作範例:
gcloud dataproc clusters gke create "${DP_CLUSTER}" \
--region=${REGION} \
--gke-cluster=${GKE_CLUSTER} \
--spark-engine-version=latest \
--staging-bucket=${BUCKET} \
--pools="name=${DP_POOLNAME},roles=default \
--setup-workload-identity
--pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
--pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
--pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"