Wenn Sie einen virtuellen Dataproc on GKE-Cluster erstellen oder aktualisieren , geben Sie einen oder mehrere Knotenpools an, die der virtuelle Cluster zum Ausführen von Jobs verwenden soll. Dieser Cluster wird als der Cluster "verwendet von" oder "zugeordnet" den angegebenen Knotenpools bezeichnet. Wenn ein angegebener Knotenpool in Ihrem GKE-Cluster nicht vorhanden ist, erstellt Dataproc on GKE den Knotenpool im GKE-Cluster mit den von Ihnen angegebenen Einstellungen. Wenn der Knotenpool vorhanden ist und von Dataproc erstellt wurde, wird er validiert, um zu bestätigen, dass seine Einstellungen mit den angegebenen Einstellungen übereinstimmen.
Einstellungen für Dataproc on GKE-Knotenpools
Sie können die folgenden Einstellungen für Knotenpools angeben, die von Ihren virtuellen Dataproc on GKE-Clustern verwendet werden. Diese Einstellungen sind eine Teilmenge der GKE-Knotenpooleinstellungen:
acceleratorsacceleratorCountacceleratorTypegpuPartitionSize*localSsdCountmachineTypeminCpuPlatformminNodeCountmaxNodeCountpreemptiblespot*
Hinweise:
gpuPartitionSizekann in der Dataproc APIGkeNodePoolAcceleratorConfigfestgelegt werden.spotkann in der Dataproc API GkeNodeConfig festgelegt werden.
Knotenpool löschen
Wenn ein Dataproc on GKE-Cluster gelöscht wird, werden die vom Cluster verwendeten Knotenpools nicht gelöscht. Unter Knotenpool löschen finden Sie Informationen zum Löschen von Knotenpools, die nicht mehr von Dataproc on GKE-Clustern verwendet werden.
Knotenpoolstandort
Sie können die Zonen standorte von Knotenpools angeben, die Ihrem virtuellen Dataproc on GKE-Cluster zugeordnet sind, wenn Sie den virtuellen Cluster erstellen oder aktualisieren. Die Knotenpoolzonen müssen sich in der Region des zugehörigen virtuellen Clusters befinden.
Zuordnung von Rollen zu Knotenpools
Knotenpool rollen
werden für Spark-Treiber- und Executor-Aufgaben definiert. Für alle Arten von Aufgaben wird eine Standardrolle
von einem Knotenpool definiert. Dataproc on GKE-Cluster müssen
mindestens einen Knotenpool haben, dem die default Rolle zugewiesen ist.
Die Zuweisung anderer Rollen ist optional.
Empfehlung: Erstellen Sie separate Knotenpools für jeden Rollentyp, wobei Knotentyp und -größe auf den Rollenanforderungen basieren.
Beispiel für die Erstellung eines virtuellen Clusters mit der gcloud CLI:
gcloud dataproc clusters gke create "${DP_CLUSTER}" \
--region=${REGION} \
--gke-cluster=${GKE_CLUSTER} \
--spark-engine-version=latest \
--staging-bucket=${BUCKET} \
--pools="name=${DP_POOLNAME},roles=default \
--setup-workload-identity
--pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
--pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
--pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"