Node pool Dataproc on GKE

Quando crei o aggiorni un cluster virtuale Dataproc su GKE, specifichi uno o più pool di nodi che il cluster virtuale utilizzerà per eseguire i job (questo cluster viene definito cluster "utilizzato da" o "associato" ai pool di nodi specificati). Se un pool di nodi specificato non esiste nel cluster GKE, Dataproc su GKE lo creerà nel cluster GKE con le impostazioni che hai specificato. Se il pool di nodi esiste ed è stato creato da Dataproc, verrà convalidato per confermare che le relative impostazioni corrispondano a quelle specificate.

Impostazioni del pool di nodi Dataproc su GKE

Puoi specificare le seguenti impostazioni nei pool di nodi utilizzati dai cluster virtuali Dataproc su GKE (queste impostazioni sono un sottoinsieme delle impostazioni dei pool di nodi GKE):

accelerators
acceleratorCount
acceleratorType
gpuPartitionSize*
localSsdCount
machineType
minCpuPlatform
minNodeCount
maxNodeCount
preemptible
spot*

Note:

gpuPartitionSize può essere impostato in GkeNodePoolAcceleratorConfig dell'API Dataproc.
spot può essere impostato in GkeNodeConfig dell'API Dataproc.

Eliminazione del node pool

Quando un cluster Dataproc su GKE viene eliminato, i pool di nodi utilizzati dal cluster non vengono eliminati. Consulta Eliminare un pool di nodi per eliminare i pool di nodi non più in uso dai cluster Dataproc su GKE.

Località del node pool

Puoi specificare la località della zona dei pool di nodi associati al cluster virtuale Dataproc su GKE quando crei o aggiorni il cluster virtuale. Le zone dei pool di nodi devono trovarsi nella regione del cluster virtuale associato.

Mappatura dei ruoli ai pool di nodi

I ruoli dei pool di nodi sono definiti per il lavoro del driver e dell'executor di Spark, con un ruolo predefinito definito per tutti i tipi di lavoro da un pool di nodi. I cluster Dataproc su GKE devono avere almeno un pool di nodi a cui è assegnato il ruolo default. L'assegnazione di altri ruoli è facoltativa.

Consiglio: crea pool di nodi separati per ogni tipo di ruolo, con tipo e dimensioni dei nodi in base ai requisiti del ruolo.

Esempio di creazione di un cluster virtuale con gcloud CLI:

gcloud dataproc clusters gke create "${DP_CLUSTER}" \
  --region=${REGION} \
  --gke-cluster=${GKE_CLUSTER} \
  --spark-engine-version=latest \
  --staging-bucket=${BUCKET} \
  --pools="name=${DP_POOLNAME},roles=default \
  --setup-workload-identity
  --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
  --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
  --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"

Node pool Dataproc on GKE Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Impostazioni del pool di nodi Dataproc su GKE

Eliminazione del node pool

Località del node pool

Mappatura dei ruoli ai pool di nodi

Node pool Dataproc on GKE