Wenn Sie das Caching für Managed Service for Apache Spark-Cluster aktivieren, werden in den Clustern Cloud Storage-Daten zwischengespeichert, auf die von Ihren Spark-Jobs häufig zugegriffen wird.
Vorteile
- Verbesserte Leistung:Durch das Caching kann die Jobleistung verbessert werden, da weniger Zeit für das Abrufen von Daten aus dem Speicher benötigt wird.
- Geringere Speicherkosten:Da Hot Data auf der lokalen Festplatte zwischengespeichert wird, werden weniger API-Aufrufe an den Speicher gesendet, um Daten abzurufen.
- Anwendbarkeit von Spark-Jobs: Wenn das Cluster-Caching in einem Cluster aktiviert ist, gilt es für alle Spark-Jobs, die in diesem Cluster ausgeführt werden, unabhängig davon, ob sie an den Managed Service for Apache Spark gesendet oder unabhängig im Cluster ausgeführt werden.
Beschränkungen und Anforderungen
- Das Caching gilt nur für Managed Service for Apache Spark-Jobs.
- Es werden nur Cloud Storage-Daten zwischengespeichert.
- Das Caching gilt nur für Cluster, die die folgenden Anforderungen erfüllen:
- Der Cluster hat einen Master und
nWorker (Hochverfügbarkeitscluster und Cluster mit einem einzelnen Knoten werden nicht unterstützt). - Diese Funktion ist in den Managed Service for Apache Spark
Imageversionen
2.0.72+,2.1.20+und2.2.0+verfügbar. - An jeden Clusterknoten müssen lokale SSDs mit der NVME-Schnittstelle (Non-Volatile Memory Express) angehängt sein. Nichtflüchtige Festplatten werden nicht unterstützt. Daten werden nur auf lokalen NVME-SSDs zwischengespeichert.
- Der Cluster verwendet das Standard-VM-Dienstkonto zur Authentifizierung. Benutzerdefinierte VM-Dienstkonten werden nicht unterstützt.
- Der Cluster hat einen Master und
Cluster-Caching aktivieren
Sie können das Cluster-Caching aktivieren, wenn Sie einen Managed Service for Apache Spark-Cluster über die Google Cloud Console, die Google Cloud CLI oder die Dataproc API erstellen.
Google Cloud Console
- Öffnen Sie in der Google Cloud Console die Seite Cluster erstellen für Managed Service for Apache Spark.
- Der Bereich Cluster einrichten ist ausgewählt. Wählen Sie im Abschnitt Leistungsverbesserungen für Spark die Option Google Cloud Storage-Caching aktivieren aus.
- Nachdem Sie die Clusterdetails in den Feldern zum Erstellen von Clustern bestätigt und angegeben haben, klicken Sie auf Erstellen.
gcloud CLI
Führen Sie den Befehl gcloud dataproc clusters create lokal in einem Terminalfenster oder in Cloud Shell mit der Clustereigenschaft aus.dataproc:dataproc.cluster.caching.enabled=true
Beispiel:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
REST API
Legen Sie SoftwareConfig.properties so fest, dass die "dataproc:dataproc.cluster.caching.enabled": "true"
Clustereigenschaft als Teil einer clusters.create Anfrage enthalten ist.