Wenn Sie das Dataproc-Cluster-Caching aktivieren, werden im Cluster Cloud Storage-Daten zwischengespeichert, auf die von Ihren Spark-Jobs häufig zugegriffen wird.
Vorteile
- Verbesserte Leistung: Durch das Caching kann die Jobleistung verbessert werden, da weniger Zeit für das Abrufen von Daten aus dem Speicher benötigt wird.
- Geringere Speicherkosten: Da Hot Data auf der lokalen Festplatte zwischengespeichert wird, werden weniger API-Aufrufe an den Speicher gesendet, um Daten abzurufen.
- Anwendbarkeit von Spark-Jobs: Wenn das Cluster-Caching in einem Cluster aktiviert ist, gilt es für alle Spark-Jobs, die im Cluster ausgeführt werden, unabhängig davon, ob sie an den Dataproc-Dienst gesendet oder unabhängig im Cluster ausgeführt werden.
Beschränkungen und Anforderungen
- Das Caching gilt nur für Dataproc-Spark-Jobs.
- Es werden nur Cloud Storage-Daten zwischengespeichert.
- Das Caching gilt nur für Cluster, die die folgenden Anforderungen erfüllen:
- Der Cluster hat einen Master und
nWorker (Hochverfügbarkeit (HA) und einzelne Knoten Cluster werden nicht unterstützt). - Diese Funktion ist in Dataproc in Compute Engine
Image-Versionen
2.0.72+,2.1.20+und2.2.0+verfügbar. - An jeden Clusterknoten müssen lokale SSDs mit der NVME-Schnittstelle (Non-Volatile Memory Express) angehängt sein. Nichtflüchtige Festplatten werden nicht unterstützt. Daten werden nur auf lokalen NVME -SSDs zwischengespeichert.
- Der Cluster verwendet das Standarddienstkonto der VM zur Authentifizierung. Benutzerdefinierte VM-Dienstkonten werden nicht unterstützt.
- Der Cluster hat einen Master und
Cluster-Caching aktivieren
Sie können das Cluster-Caching aktivieren, wenn Sie einen Dataproc-Cluster mit der Google Cloud Console, der Google Cloud CLI oder der Dataproc API erstellen.
Google Cloud Console
- Öffnen Sie in der Google Cloud Console die Dataproc Cluster in Compute Engine erstellen Seite.
- Der Bereich Cluster einrichten ist ausgewählt. Wählen Sie im Abschnitt Leistungsverbesserungen für Spark die Option Google Cloud Storage-Caching aktivieren aus.
- Nachdem Sie die Clusterdetails in den Bereichen zum Erstellen von Clustern bestätigt und angegeben haben, klicken Sie auf Erstellen.
gcloud-CLI
Führen Sie den Befehl gcloud dataproc clusters create lokal in einem Terminalfenster oder in Cloud Shell mit dem Clusterattribut aus.dataproc:dataproc.cluster.caching.enabled=true
Beispiel:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
REST API
Legen Sie SoftwareConfig.properties so fest, dass das Clusterattribut als Teil einer clusters.create-Anfrage enthalten ist."dataproc:dataproc.cluster.caching.enabled": "true"