Cluster-Caching

Wenn Sie das Caching für Managed Service for Apache Spark-Cluster aktivieren, werden in den Clustern Cloud Storage-Daten zwischengespeichert, auf die von Ihren Spark-Jobs häufig zugegriffen wird.

Vorteile

  • Verbesserte Leistung:Durch das Caching kann die Jobleistung verbessert werden, da weniger Zeit für das Abrufen von Daten aus dem Speicher benötigt wird.
  • Geringere Speicherkosten:Da Hot Data auf der lokalen Festplatte zwischengespeichert wird, werden weniger API-Aufrufe an den Speicher gesendet, um Daten abzurufen.
  • Anwendbarkeit von Spark-Jobs: Wenn das Cluster-Caching in einem Cluster aktiviert ist, gilt es für alle Spark-Jobs, die in diesem Cluster ausgeführt werden, unabhängig davon, ob sie an den Managed Service for Apache Spark gesendet oder unabhängig im Cluster ausgeführt werden.

Beschränkungen und Anforderungen

Cluster-Caching aktivieren

Sie können das Cluster-Caching aktivieren, wenn Sie einen Managed Service for Apache Spark-Cluster über die Google Cloud Console, die Google Cloud CLI oder die Dataproc API erstellen.

Google Cloud Console

  • Öffnen Sie in der Google Cloud Console die Seite Cluster erstellen für Managed Service for Apache Spark.
  • Der Bereich Cluster einrichten ist ausgewählt. Wählen Sie im Abschnitt Leistungsverbesserungen für Spark die Option Google Cloud Storage-Caching aktivieren aus.
  • Nachdem Sie die Clusterdetails in den Feldern zum Erstellen von Clustern bestätigt und angegeben haben, klicken Sie auf Erstellen.

gcloud CLI

Führen Sie den Befehl gcloud dataproc clusters create lokal in einem Terminalfenster oder in Cloud Shell mit der Clustereigenschaft aus.dataproc:dataproc.cluster.caching.enabled=true

Beispiel:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

REST API

Legen Sie SoftwareConfig.properties so fest, dass die "dataproc:dataproc.cluster.caching.enabled": "true" Clustereigenschaft als Teil einer clusters.create Anfrage enthalten ist.