Dataproc auf GKE-Knotenpools

Wenn Sie einen virtuellen Dataproc on GKE-Cluster erstellen oder aktualisieren , geben Sie einen oder mehrere Knotenpools an, die der virtuelle Cluster zum Ausführen von Jobs verwenden soll. Dieser Cluster wird als der Cluster "verwendet von" oder "zugeordnet" den angegebenen Knotenpools bezeichnet. Wenn ein angegebener Knotenpool in Ihrem GKE-Cluster nicht vorhanden ist, erstellt Dataproc on GKE den Knotenpool im GKE-Cluster mit den von Ihnen angegebenen Einstellungen. Wenn der Knotenpool vorhanden ist und von Dataproc erstellt wurde, wird er validiert, um zu bestätigen, dass seine Einstellungen mit den angegebenen Einstellungen übereinstimmen.

Einstellungen für Dataproc on GKE-Knotenpools

Sie können die folgenden Einstellungen für Knotenpools angeben, die von Ihren virtuellen Dataproc on GKE-Clustern verwendet werden. Diese Einstellungen sind eine Teilmenge der GKE-Knotenpooleinstellungen:

accelerators
acceleratorCount
acceleratorType
gpuPartitionSize*
localSsdCount
machineType
minCpuPlatform
minNodeCount
maxNodeCount
preemptible
spot*

Hinweise:

gpuPartitionSize kann in der Dataproc API GkeNodePoolAcceleratorConfig festgelegt werden.
spot kann in der Dataproc API GkeNodeConfig festgelegt werden.

Knotenpool löschen

Wenn ein Dataproc on GKE-Cluster gelöscht wird, werden die vom Cluster verwendeten Knotenpools nicht gelöscht. Unter Knotenpool löschen finden Sie Informationen zum Löschen von Knotenpools, die nicht mehr von Dataproc on GKE-Clustern verwendet werden.

Knotenpoolstandort

Sie können die Zonen standorte von Knotenpools angeben, die Ihrem virtuellen Dataproc on GKE-Cluster zugeordnet sind, wenn Sie den virtuellen Cluster erstellen oder aktualisieren. Die Knotenpoolzonen müssen sich in der Region des zugehörigen virtuellen Clusters befinden.

Zuordnung von Rollen zu Knotenpools

Knotenpool rollen werden für Spark-Treiber- und Executor-Aufgaben definiert. Für alle Arten von Aufgaben wird eine Standardrolle von einem Knotenpool definiert. Dataproc on GKE-Cluster müssen mindestens einen Knotenpool haben, dem die default Rolle zugewiesen ist. Die Zuweisung anderer Rollen ist optional.

Empfehlung: Erstellen Sie separate Knotenpools für jeden Rollentyp, wobei Knotentyp und -größe auf den Rollenanforderungen basieren.

Beispiel für die Erstellung eines virtuellen Clusters mit der gcloud CLI:

gcloud dataproc clusters gke create "${DP_CLUSTER}" \
  --region=${REGION} \
  --gke-cluster=${GKE_CLUSTER} \
  --spark-engine-version=latest \
  --staging-bucket=${BUCKET} \
  --pools="name=${DP_POOLNAME},roles=default \
  --setup-workload-identity
  --pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
  --pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
  --pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"

Dataproc auf GKE-Knotenpools Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Einstellungen für Dataproc on GKE-Knotenpools

Knotenpool löschen

Knotenpoolstandort

Zuordnung von Rollen zu Knotenpools

Dataproc auf GKE-Knotenpools