Dataproc-Cluster ohne Skalierung erstellen

In diesem Dokument wird beschrieben, wie Sie einen Dataproc-Cluster ohne Worker erstellen.

Dataproc-Cluster ohne Worker sind eine kostengünstige Möglichkeit, Dataproc-Cluster zu verwenden. Im Gegensatz zu Standard-Dataproc-Clustern , die mindestens zwei primäre Worker erfordern, verwenden Dataproc-Cluster ohne Worker nur sekundäre Worker , die auf null skaliert werden können.

Dataproc-Cluster ohne Worker eignen sich ideal für die Verwendung als Cluster mit langer Laufzeit , die Leerlaufzeiten aufweisen, z. B. ein Cluster, auf dem ein Jupiter-Notebook gehostet wird. Sie bieten eine verbesserte Ressourcennutzung durch die Verwendung von Autoscaling-Richtlinien ohne Worker.

Merkmale und Einschränkungen

Ein Dataproc-Cluster ohne Worker ähnelt einem Standard cluster, hat aber die folgenden einzigartigen Merkmale und Einschränkungen:

  • Erfordert die Image-Version 2.2.53 oder höher.
  • Unterstützt nur sekundäre Worker, keine primären Worker.
  • Enthält Dienste wie YARN, unterstützt aber das HDFS-Dateisystem nicht.

    • Wenn Sie Cloud Storage als Standarddateisystem verwenden möchten, legen Sie das core:fs.defaultFS Clusterattribut auf einen Cloud Storage-Bucket-Speicherort (gs://BUCKET_NAME) fest.
    • Wenn Sie eine Komponente während der Clustererstellung deaktivieren, auch HDFS deaktivieren.
  • Kann nicht in einen Standardcluster konvertiert werden und umgekehrt.

  • Erfordert eine Autoscaling-Richtlinie für ZERO_SCALE Clustertypen.

  • Erfordert die Auswahl flexibler VMs als Maschinentyp.

  • Unterstützt die Oozie-Komponente nicht.

  • Kann nicht über die Google Cloud Console erstellt werden.

Optional: Autoscaling-Richtlinie konfigurieren

Sie können eine Autoscaling-Richtlinie konfigurieren, um die Skalierung sekundärer Worker für einen Cluster ohne Worker zu definieren. Beachten Sie dabei Folgendes:

  • Legen Sie den Clustertyp auf ZERO_SCALE fest.
  • Konfigurieren Sie eine Autoscaling-Richtlinie nur für die Konfiguration sekundärer Worker.

Weitere Informationen finden Sie unter Autoscaling-Richtlinie erstellen.

Dataproc-Cluster ohne Worker erstellen

Erstellen Sie einen Cluster ohne Worker mit der gcloud CLI oder der Dataproc API.

gcloud

Führen Sie gcloud dataproc clusters create Befehl lokal in einem Terminalfenster oder in Cloud Shellaus.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --cluster-type=zero-scale \
    --autoscaling-policy=AUTOSCALING_POLICY \
    --properties=core:fs.defaultFS=gs://BUCKET_NAME \
    --secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
    ...other args

Ersetzen Sie Folgendes:

  • CLUSTER_NAME: Name des Dataproc -Clusters ohne Worker.
  • REGION: eine verfügbare Compute Engine-Region.
  • AUTOSCALING_POLICY: die ID oder der Ressourcen-URI der Autoscaling-Richtlinie.
  • BUCKET_NAME: Name Ihres Cloud Storage-Buckets.
  • MACHINE_TYPE: spezifischer Compute Engine Maschinentyp, z. B. n1-standard-4, e2-standard-8.
  • RANK: definiert die Priorität einer Liste von Maschinen typen.

REST

Erstellen Sie einen Cluster ohne Worker mit einer Dataproc REST API cluster.create Anfrage:

Nächste Schritte