Zero-Scale-Cluster für Managed Service for Apache Spark erstellen

In diesem Dokument wird beschrieben, wie Sie einen Managed Service for Apache Spark-Cluster ohne Skalierung erstellen.

Managed Service for Apache Spark-Cluster mit Zero-Scale bieten eine kostengünstige Möglichkeit, Managed Service for Apache Spark-Cluster zu verwenden. Im Gegensatz zu Standard-Clustern für Managed Service for Apache Spark, für die mindestens zwei primäre Worker erforderlich sind, werden in Zero-Scale-Clustern für Managed Service for Apache Spark nur sekundäre Worker verwendet, die auf null skaliert werden können.

Managed Service for Apache Spark-Cluster mit Zero-Scale sind ideal für die Verwendung als Cluster mit langer Laufzeit, die Leerlaufzeiten haben, z. B. ein Cluster, auf dem ein Jupiter-Notebook gehostet wird. Sie bieten eine verbesserte Ressourcennutzung durch die Verwendung von Autoscaling-Richtlinien mit Zero-Scale.

Merkmale und Einschränkungen

Ein Zero-Scale-Cluster für Managed Service for Apache Spark ähnelt einem Standardcluster, hat aber die folgenden besonderen Merkmale und Einschränkungen:

  • Erfordert die Image-Version 2.2.53 oder höher.
  • Unterstützt nur sekundäre Worker, nicht primäre Worker.
  • Enthält Dienste wie YARN, unterstützt aber das HDFS-Dateisystem nicht.

    • Wenn Sie Cloud Storage als Standarddateisystem verwenden möchten, legen Sie das Clusterattribut core:fs.defaultFS auf einen Cloud Storage-Bucket-Speicherort (gs://BUCKET_NAME) fest.
    • Wenn Sie eine Komponente während der Clustererstellung deaktivieren, deaktivieren Sie auch HDFS.
  • Kann nicht in einen Standardcluster konvertiert werden und umgekehrt.

  • Erfordert eine Autoscaling-Richtlinie für ZERO_SCALE-Clustertypen.

  • Erfordert die Auswahl von flexiblen VMs als Maschinentyp.

  • Unterstützt die Oozie-Komponente nicht.

  • Kann nicht über die Google Cloud Console erstellt werden.

Optional: Autoscaling-Richtlinie konfigurieren

Sie können eine Autoscaling-Richtlinie konfigurieren, um die Skalierung sekundärer Worker für einen Cluster mit null Knoten zu definieren. Beachten Sie dabei Folgendes:

  • Legen Sie den Clustertyp auf ZERO_SCALE fest.
  • Konfigurieren Sie eine Autoscaling-Richtlinie nur für die Konfiguration des sekundären Workers.

Weitere Informationen finden Sie unter Autoscaling-Richtlinie erstellen.

Zero-Scale-Cluster für Managed Service for Apache Spark erstellen

Erstellen Sie einen Cluster mit null Instanzen mit der gcloud CLI oder der Dataproc API.

gcloud

Führen Sie den Befehl gcloud dataproc clusters create lokal in einem Terminalfenster oder in Cloud Shell aus.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --cluster-type=zero-scale \
    --autoscaling-policy=AUTOSCALING_POLICY \
    --properties=core:fs.defaultFS=gs://BUCKET_NAME \
    --secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
    ...other args

Ersetzen Sie Folgendes:

  • CLUSTER_NAME: Name des Managed Service for Apache Spark-Clusters mit Zero-Scale.
  • REGION: Eine verfügbare Compute Engine-Region.
  • AUTOSCALING_POLICY: Die ID oder der Ressourcen-URI der Autoscaling-Richtlinie.
  • BUCKET_NAME: Name Ihres Cloud Storage-Bucket.
  • MACHINE_TYPE: Ein bestimmter Compute Engine-Maschinentyp, z. B. n1-standard-4, e2-standard-8.
  • RANK: Definiert die Priorität einer Liste von Maschinentypen.

REST

Erstellen Sie einen Cluster mit null Instanzen mit einer cluster.create-Anfrage der Managed Service for Apache Spark REST API:

Nächste Schritte