Zero-Scale-Cluster für Managed Service for Apache Spark erstellen

In diesem Dokument wird beschrieben, wie Sie einen Managed Service for Apache Spark-Cluster ohne Skalierung erstellen.

Managed Service for Apache Spark-Cluster mit Zero-Scale bieten eine kostengünstige Möglichkeit, Managed Service for Apache Spark-Cluster zu verwenden. Im Gegensatz zu Standardclustern für Managed Service for Apache Spark, für die mindestens zwei primäre Worker erforderlich sind, werden in Zero-Scale-Clustern für Managed Service for Apache Spark nur sekundäre Worker verwendet, die auf null skaliert werden können.

Managed Service for Apache Spark-Cluster mit Zero-Scale sind ideal für die Verwendung als Cluster mit langer Laufzeit, die Leerlaufzeiten haben, z. B. ein Cluster, auf dem ein Jupyter-Notebook gehostet wird. Sie ermöglichen eine bessere Ressourcennutzung durch die Verwendung von Autoscaling-Richtlinien mit Nullskalierung.

Anforderungen und Einschränkungen

Für einen Managed Service for Apache Spark-Cluster mit Zero-Scaling gelten die folgenden Anforderungen und Einschränkungen:

  • Erfordert die Image-Version 2.2.61 oder höher.
  • Erfordert die Verwendung von Cloud Storage und nicht des HDFS-Dateisystems.
  • Unterstützt nur sekundäre Worker, nicht primäre Worker.
  • Kann nicht in einen Standardcluster konvertiert werden und umgekehrt.
  • Unterstützt die Oozie-Komponente nicht.

Zero-Scale-Cluster für Managed Service for Apache Spark erstellen

Sie können einen Cluster mit null Knoten mit der gcloud CLI oder der Managed Service for Apache Spark API erstellen.

gcloud

Führen Sie den gcloud dataproc clusters create-Befehl lokal in einem Terminalfenster oder in Cloud Shell aus.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --cluster-type=zero-scale \
    --autoscaling-policy=AUTOSCALING_POLICY \
    --properties=core:fs.defaultFS=gs://BUCKET_NAME \
    ...other args

Ersetzen Sie Folgendes:

  • CLUSTER_NAME: Name des Zero-Scale-Clusters von Managed Service for Apache Spark.
  • REGION: Eine verfügbare Compute Engine-Region.
  • AUTOSCALING_POLICY (Optional): Wenn Sie eine Autoscaling-Richtlinie erstellen, die auf den Cluster mit Zero-Scale angewendet werden soll, geben Sie mit diesem Flag die ID oder den Ressourcen-URI der Autoscaling-Richtlinie an. Beim Erstellen der Richtlinie:
    • Legen Sie den Wert clusterType auf ZERO_SCALE fest.
    • Konfigurieren Sie eine Autoscaling-Richtlinie nur für die secondaryWorkerConfig.
  • Cloud Storage-Dateisystem: Sie müssen core:fs.defaultFS auf einen Cloud Storage-Bucket festlegen, um das Dateisystem des Clusters mit Zero-Scale auf Cloud Storage anstelle des Standard-HDFS festzulegen.
    • BUCKET_NAME: Name eines Cloud Storage-Buckets. Der Bucket-Name muss für jeden Cluster mit Skalierung auf null eindeutig sein.

REST

  • Clustertyp: Legen Sie ClusterConfig.ClusterType auf ZERO_SCALE fest.
  • Autoscaling-Richtlinie (optional): Wenn Sie eine Autoscaling-Richtlinie erstellen, die auf den Cluster mit Zero-Scale angewendet werden soll, legen Sie AutoscalingConfig.policyUri mit der Autoscaling-Richtlinien-ID ZERO_SCALE fest. Beim Erstellen der Richtlinie:
    • Legen Sie den Wert clusterType auf ZERO_SCALE fest.
    • Konfigurieren Sie eine Autoscaling-Richtlinie nur für die secondaryWorkerConfig.
  • Cloud Storage-Dateisystem: Sie müssen core:fs.defaultFS auf einen Cloud Storage-Bucket festlegen, um das Dateisystem des Clusters mit Zero-Scale auf Cloud Storage anstelle des Standard-HDFS festzulegen.
    • Fügen Sie core:fs.defaultFS:gs://BUCKET_NAME SoftwareConfig.property hinzu. Ersetzen Sie BUCKET_NAME durch den Namen Ihres Cloud Storage-Bucket. Geben Sie für jeden Cluster, der auf null skaliert wird, einen eindeutigen Bucket-Namen an.

Nächste Schritte