"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Cluster-Caching

Wenn Sie das Caching für Managed Service for Apache Spark-Cluster aktivieren, werden im Cluster Cloud Storage-Daten zwischengespeichert, auf die von Ihren Spark-Jobs häufig zugegriffen wird.

Vorteile

Verbesserte Leistung:Durch das Caching kann die Jobleistung verbessert werden, da weniger Zeit für das Abrufen von Daten aus dem Speicher benötigt wird.
Geringere Speicherkosten:Da Hot Data auf dem lokalen Laufwerk zwischengespeichert wird, sind weniger API-Aufrufe zum Abrufen von Daten erforderlich.
Anwendbarkeit von Spark-Jobs: Wenn das Cluster-Caching für einen Cluster aktiviert ist, gilt es für alle Spark-Jobs, die im Cluster ausgeführt werden, unabhängig davon, ob sie an den Managed Service for Apache Spark gesendet oder unabhängig im Cluster ausgeführt werden.

Beschränkungen und Anforderungen

Das Caching gilt nur für Managed Service for Apache Spark-Jobs.
Es werden nur Cloud Storage-Daten im Cache gespeichert.
Das Caching gilt nur für Cluster, die die folgenden Anforderungen erfüllen:
- Der Cluster hat einen Master und n Worker. Hochverfügbarkeitscluster und Single-Node-Cluster werden nicht unterstützt.
- Diese Funktion ist in den Image-Versionen 2.0.72+, 2.1.20+ und 2.2.0+ von Managed Service for Apache Spark verfügbar.
- Jeder Clusterknoten muss lokale SSDs haben, die mit der NVME-Schnittstelle (Non-Volatile Memory Express) angehängt sind. Nichtflüchtige Speicher (Persistent Disks, PDs) werden nicht unterstützt. Daten werden nur auf lokalen NVME-SSDs im Cache gespeichert.
- Der Cluster verwendet das Standarddienstkonto für VMs zur Authentifizierung. Benutzerdefinierte VM-Dienstkonten werden nicht unterstützt.

Cluster-Caching aktivieren

Sie können das Cluster-Caching aktivieren, wenn Sie einen Managed Service for Apache Spark-Cluster mit der Google Cloud Console, der Google Cloud CLI oder der Dataproc API erstellen.

Google Cloud Console

Öffnen Sie die Seite Cluster erstellen in der Google Cloud Console.
Klicken Sie auf Zusätzliche Konfiguration, um den Bereich zu maximieren.
Bearbeiten Sie Anpassung und Sonstiges.
Klicken Sie im Bereich Clustereigenschaften des geöffneten Bereichs auf + Eigenschaften hinzufügen.
Wählen Sie in der Liste Präfix die Option dataproc aus und fügen Sie dann den Schlüssel dataproc.cluster.caching.enabled und den Wert true hinzu.

gcloud-CLI

Führen Sie den Befehl gcloud dataproc clusters create lokal in einem Terminalfenster oder in Cloud Shell mit der dataproc:dataproc.cluster.caching.enabled=true-Cluster-Eigenschaft aus.

Beispiel:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...

REST API

Legen Sie SoftwareConfig.properties so fest, dass das Clusterattribut "dataproc:dataproc.cluster.caching.enabled": "true" als Teil einer clusters.create-Anfrage enthalten ist.

Cluster-Caching Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.