In diesem Dokument wird beschrieben, wie Sie einen Dataproc-Cluster ohne Worker erstellen.
Dataproc-Cluster ohne Worker sind eine kostengünstige Möglichkeit, Dataproc-Cluster zu verwenden. Im Gegensatz zu Standard-Dataproc-Clustern , die mindestens zwei primäre Worker erfordern, verwenden Dataproc-Cluster ohne Worker nur sekundäre Worker , die auf null skaliert werden können.
Dataproc-Cluster ohne Worker eignen sich ideal für die Verwendung als Cluster mit langer Laufzeit , die Leerlaufzeiten aufweisen, z. B. ein Cluster, auf dem ein Jupiter-Notebook gehostet wird. Sie bieten eine verbesserte Ressourcennutzung durch die Verwendung von Autoscaling-Richtlinien ohne Worker.
Merkmale und Einschränkungen
Ein Dataproc-Cluster ohne Worker ähnelt einem Standard cluster, hat aber die folgenden einzigartigen Merkmale und Einschränkungen:
- Erfordert die Image-Version
2.2.53oder höher. - Unterstützt nur sekundäre Worker, keine primären Worker.
Enthält Dienste wie YARN, unterstützt aber das HDFS-Dateisystem nicht.
- Wenn Sie Cloud Storage als Standarddateisystem verwenden möchten, legen Sie das
core:fs.defaultFSClusterattribut auf einen Cloud Storage-Bucket-Speicherort (gs://BUCKET_NAME) fest. - Wenn Sie eine Komponente während der Clustererstellung deaktivieren, auch HDFS deaktivieren.
- Wenn Sie Cloud Storage als Standarddateisystem verwenden möchten, legen Sie das
Kann nicht in einen Standardcluster konvertiert werden und umgekehrt.
Erfordert eine Autoscaling-Richtlinie für
ZERO_SCALEClustertypen.Erfordert die Auswahl flexibler VMs als Maschinentyp.
Unterstützt die Oozie-Komponente nicht.
Kann nicht über die Google Cloud Console erstellt werden.
Optional: Autoscaling-Richtlinie konfigurieren
Sie können eine Autoscaling-Richtlinie konfigurieren, um die Skalierung sekundärer Worker für einen Cluster ohne Worker zu definieren. Beachten Sie dabei Folgendes:
- Legen Sie den Clustertyp auf
ZERO_SCALEfest. - Konfigurieren Sie eine Autoscaling-Richtlinie nur für die Konfiguration sekundärer Worker.
Weitere Informationen finden Sie unter Autoscaling-Richtlinie erstellen.
Dataproc-Cluster ohne Worker erstellen
Erstellen Sie einen Cluster ohne Worker mit der gcloud CLI oder der Dataproc API.
gcloud
Führen Sie
gcloud dataproc clusters create
Befehl lokal in einem Terminalfenster oder in
Cloud Shellaus.
gcloud dataproc clusters create CLUSTER_NAME \
--region=REGION \
--cluster-type=zero-scale \
--autoscaling-policy=AUTOSCALING_POLICY \
--properties=core:fs.defaultFS=gs://BUCKET_NAME \
--secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
...other args
Ersetzen Sie Folgendes:
- CLUSTER_NAME: Name des Dataproc -Clusters ohne Worker.
- REGION: eine verfügbare Compute Engine-Region.
- AUTOSCALING_POLICY: die ID oder der Ressourcen-URI der Autoscaling-Richtlinie.
- BUCKET_NAME: Name Ihres Cloud Storage-Buckets.
- MACHINE_TYPE: spezifischer Compute Engine
Maschinentyp, z. B.
n1-standard-4,e2-standard-8. - RANK: definiert die Priorität einer Liste von Maschinen typen.
REST
Erstellen Sie einen Cluster ohne Worker mit einer Dataproc REST API cluster.create Anfrage:
- Legen Sie
ClusterConfig.ClusterTypefürsecondaryWorkerConfigaufZERO_SCALEfest. - Legen Sie
AutoscalingConfig.policyUrimit der ID der Autoscaling-RichtlinieZERO_SCALEfest. - Fügen Sie das
core:fs.defaultFS:gs://BUCKET_NAMESoftwareConfig.property hinzu. Ersetzen Sie BUCKET_NAME durch den Namen Ihres Cloud Storage-Buckets.
Nächste Schritte
- Weitere Informationen zum Dataproc-Autoscaling.