Dataproc en grupos de nodos de GKE

Cuando creas o actualizas un clúster virtual de Dataproc en GKE, especificas uno o más grupos de nodos que el clúster virtual usará para ejecutar trabajos (este clúster se conoce como el clúster "usado por" o "asociado" con los grupos de nodos especificados). Si un grupo de nodos especificado no existe en tu clúster de GKE, Dataproc en GKE lo creará en el clúster de GKE con la configuración que especifiques. Si el grupo de nodos existe y fue creado por Dataproc, se validará para confirmar que su configuración coincida con la configuración especificada.

Configuración del grupo de nodos de Dataproc en GKE

Puedes especificar la siguiente configuración en los grupos de nodos que usan tus clústeres virtuales de Dataproc en GKE (esta configuración es un subconjunto de la configuración del grupo de nodos de GKE):

  • accelerators
  • acceleratorCount
  • acceleratorType
  • gpuPartitionSize*
  • localSsdCount
  • machineType
  • minCpuPlatform
  • minNodeCount
  • maxNodeCount
  • preemptible
  • spot*

Notas:

Eliminación de grupos de nodos

Cuando se borra un clúster de Dataproc en GKE, no se borran los grupos de nodos que usa el clúster. Consulta Cómo borrar un grupo de nodos para borrar los grupos de nodos que ya no usan los clústeres de Dataproc en GKE.

Ubicación del grupo de nodos

Puedes especificar la ubicación de la zona de los grupos de nodos asociados con tu clúster virtual de Dataproc en GKE cuando creas o actualizas el clúster virtual. Las zonas del grupo de nodos deben estar ubicadas en la región del clúster virtual asociado.

Asignación de rol a grupo de nodos

Los roles del grupo de nodos se definen para el trabajo del controlador y el ejecutor de Spark, con un rol predeterminado definido para todos los tipos de trabajo por un grupo de nodos. Los clústeres de Dataproc en GKE deben tener al menos un grupo de nodos al que se le asigne el rol default. La asignación de otros roles es opcional.

Recomendación: Crea grupos de nodos separados para cada tipo de rol, con el tipo de nodo y el tamaño según los requisitos del rol.

Ejemplo de creación de clúster virtual de la CLI de gcloud:

gcloud dataproc clusters gke create "${DP_CLUSTER}" \
  --region=${REGION} \
  --gke-cluster=${GKE_CLUSTER} \
  --spark-engine-version=latest \
  --staging-bucket=${BUCKET} \
  --pools="name=${DP_POOLNAME},roles=default \
  --setup-workload-identity
  --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
  --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
  --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"