Wenn Sie einen virtuellen Cluster für Managed Service for Apache Spark in GKE erstellen oder aktualisieren, geben Sie einen oder mehrere Knotenpools an, die der virtuelle Cluster zum Ausführen von Jobs verwendet. Dieser Cluster wird als der Cluster bezeichnet, der von den angegebenen Knotenpools „verwendet“ oder „zugeordnet“ wird. Wenn ein angegebener Knotenpool in Ihrem GKE-Cluster nicht vorhanden ist, wird der Knotenpool im GKE-Cluster mit den von Ihnen angegebenen Einstellungen von Managed Service for Apache Spark in GKE erstellt. Wenn der Knotenpool vorhanden ist und von Managed Service for Apache Spark erstellt wurde, wird geprüft, ob seine Einstellungen mit den angegebenen Einstellungen übereinstimmen.
Einstellungen für Knotenpools für Managed Service for Apache Spark in GKE
Sie können die folgenden Einstellungen für Knotenpools angeben, die von Ihren virtuellen Clustern von Managed Service for Apache Spark in GKE verwendet werden. Diese Einstellungen sind eine Teilmenge der GKE-Knotenpooleinstellungen:
acceleratorsacceleratorCountacceleratorTypegpuPartitionSize*localSsdCountmachineTypeminCpuPlatformminNodeCountmaxNodeCountpreemptiblespot*
Hinweise:
gpuPartitionSizekann in der Managed Service for Apache Spark APIGkeNodePoolAcceleratorConfigfestgelegt werden.spotkann in der GkeNodeConfig der Managed Service for Apache Spark API festgelegt werden.
Knotenpool löschen
Wenn ein Managed Service for Apache Spark on GKE-Cluster gelöscht wird, werden die vom Cluster verwendeten Knotenpools nicht gelöscht. Informationen zum Löschen von Knotenpools, die nicht mehr von Managed Service for Apache Spark in GKE-Clustern verwendet werden, finden Sie unter Knotenpool löschen.
Knotenpoolstandort
Sie können den Zonen-Standort von Knotenpools angeben, die Ihrem virtuellen Cluster von Managed Service for Apache Spark in GKE zugeordnet sind, wenn Sie den virtuellen Cluster erstellen oder aktualisieren. Die Knotenpoolzonen müssen sich in der Region des zugehörigen virtuellen Clusters befinden.
Zuordnung von Rollen zu Knotenpools
Rollen für Knotenpools werden für Spark-Treiber- und Executor-Arbeiten definiert. Für alle Arten von Arbeiten in einem Knotenpool wird eine Standardrolle definiert. Für Managed Service for Apache Spark-Cluster in GKE muss mindestens ein Knotenpool mit der Rolle default zugewiesen sein.
Das Zuweisen anderer Rollen ist optional.
Empfehlung:Erstellen Sie für jeden Rollentyp separate Knotenpools mit Knotentyp und ‑größe, die auf den Rollenanforderungen basieren.
Beispiel für die Erstellung eines virtuellen Clusters mit der gcloud CLI:
gcloud dataproc clusters gke create "${DP_CLUSTER}" \
--region=${REGION} \
--gke-cluster=${GKE_CLUSTER} \
--spark-engine-version=latest \
--staging-bucket=${BUCKET} \
--pools="name=${DP_POOLNAME},roles=default \
--setup-workload-identity
--pools="name=${DP_CTRL_POOLNAME},roles=default,machineType=e2-standard-4" \
--pools="name=${DP_DRIVER_POOLNAME},min=1,max=3,roles=spark-driver,machineType=n2-standard-4" \
--pools="name=${DP_EXEC_POOLNAME},min=1,max=10,roles=spark-executor,machineType=n2-standard-8"