Cluster-Caching

Wenn Sie das Dataproc-Cluster-Caching aktivieren, werden im Cluster Cloud Storage-Daten zwischengespeichert, auf die von Ihren Spark-Jobs häufig zugegriffen wird.

Vorteile

Verbesserte Leistung:Durch das Caching kann die Leistung von Jobs verbessert werden, da weniger Zeit für das Abrufen von Daten aus dem Speicher benötigt wird.
Geringere Speicherkosten:Da Hot Data auf der lokalen Festplatte zwischengespeichert wird, sind weniger API-Aufrufe zum Abrufen von Daten erforderlich.
Anwendbarkeit von Spark-Jobs: Wenn das Cluster-Caching für einen Cluster aktiviert ist, gilt es für alle Spark-Jobs, die im Cluster ausgeführt werden, unabhängig davon, ob sie an den Dataproc-Dienst gesendet oder unabhängig im Cluster ausgeführt werden.

Beschränkungen und Anforderungen

Das Caching gilt nur für Dataproc-Spark-Jobs.
Es werden nur Cloud Storage-Daten im Cache gespeichert.
Das Caching gilt nur für Cluster, die die folgenden Anforderungen erfüllen:
- Der Cluster hat einen Master und n Worker. Hochverfügbarkeitscluster und Single-Node-Cluster werden nicht unterstützt.
- Dieses Feature ist in Dataproc in Compute Engine-Image-Versionen 2.0.72+, 2.1.20+ und 2.2.0+ verfügbar.
- Jeder Clusterknoten muss lokale SSDs haben, die über die NVME-Schnittstelle (Non-Volatile Memory Express) angehängt sind. Nichtflüchtige Speicher (Persistent Disks, PDs) werden nicht unterstützt. Daten werden nur auf lokalen NVME-SSDs im Cache gespeichert.
- Der Cluster verwendet das VM-Standarddienstkonto zur Authentifizierung. Benutzerdefinierte VM-Dienstkonten werden nicht unterstützt.

Cluster-Caching aktivieren

Sie können das Cluster-Caching aktivieren, wenn Sie einen Dataproc-Cluster über die Google Cloud Console, die Google Cloud CLI oder die Dataproc API erstellen.

Google Cloud Console

Öffnen Sie Dataproc Cluster in Compute Engine erstellen in der Google Cloud Console.
Der Bereich Cluster einrichten ist ausgewählt. Wählen Sie im Abschnitt Spark-Leistungsverbesserungen die Option Google Cloud Storage-Caching aktivieren aus.
Nachdem Sie die Clusterdetails in den Feldern zum Erstellen von Clustern bestätigt und angegeben haben, klicken Sie auf Erstellen.

gcloud-CLI

Führen Sie den Befehl gcloud dataproc clusters create lokal in einem Terminalfenster oder in Cloud Shell mit der dataproc:dataproc.cluster.caching.enabled=true-Cluster-Eigenschaft aus.

Beispiel:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...

REST API

Legen Sie SoftwareConfig.properties so fest, dass das Clusterattribut "dataproc:dataproc.cluster.caching.enabled": "true" als Teil einer clusters.create-Anfrage enthalten ist.

Cluster-Caching Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.