"Managed Service for Apache Spark" è il nuovo nome del prodotto precedentemente noto come "Dataproc on Compute Engine" (deployment del cluster) e "Google Cloud Serverless for Apache Spark" (deployment serverless).

Memorizzazione in cache del cluster

Quando abiliti la memorizzazione nella cache dei cluster Managed Service for Apache Spark, il cluster memorizza nella cache i dati di Cloud Storage a cui accedono di frequente i job Spark.

Vantaggi

Prestazioni migliorate: la memorizzazione nella cache può migliorare le prestazioni dei job riducendo il tempo necessario per recuperare i dati dallo spazio di archiviazione.
Costi di archiviazione ridotti: poiché i dati attivi vengono memorizzati nella cache sul disco locale, vengono effettuate meno chiamate API allo spazio di archiviazione per recuperare i dati.
Applicabilità dei job Spark: quando la memorizzazione nella cache dei cluster è abilitata su un cluster, si applica a tutti i job Spark eseguiti sul cluster, indipendentemente dal fatto che siano stati inviati al servizio Managed Service for Apache Spark o eseguiti in modo indipendente sul cluster.

Limitazioni e requisiti

La memorizzazione nella cache si applica solo ai job Spark di Managed Service for Apache Spark.
Vengono memorizzati nella cache solo i dati di Cloud Storage.
La memorizzazione nella cache si applica solo ai cluster che soddisfano i seguenti requisiti:
- Il cluster ha un master e n worker (i cluster a nodo singolo e ad alta disponibilità (HA) non sono supportati).
- Questa funzionalità è disponibile nelle versioni delle immagini di Managed Service for Apache Spark 2.0.72+, 2.1.20+, e 2.2.0+.
- Ogni nodo del cluster deve avere SSD locali collegati con l'interfaccia NVME (Non-Volatile Memory Express) (i dischi permanenti non sono supportati). I dati vengono memorizzati nella cache solo sugli SSD locali NVME.
- Il cluster utilizza il service account VM predefinito per l'autenticazione. I service account VM personalizzati non sono supportati.

Abilitare la memorizzazione nella cache dei cluster

Puoi abilitare la memorizzazione nella cache dei cluster quando crei un cluster Managed Service for Apache Spark utilizzando la Google Cloud console, Google Cloud CLI o l'API Dataproc.

Google Cloud Console

Apri la pagina Crea un cluster di Managed Service for Apache Spark nella Google Cloud console.
Il riquadro Configura cluster è selezionato. Nella sezione Miglioramenti delle prestazioni di Spark, seleziona Abilita la memorizzazione nella cache di Google Cloud Storage.
Dopo aver confermato e specificato i dettagli del cluster nei riquadri di creazione del cluster, fai clic su Crea.

Gcloud CLI

Esegui il comando gcloud dataproc clusters create localmente in una finestra del terminale o in Cloud Shell utilizzando la proprietà del cluster dataproc:dataproc.cluster.caching.enabled=true.

Esempio:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...

API REST

Imposta SoftwareConfig.properties in modo da includere la "dataproc:dataproc.cluster.caching.enabled": "true" proprietà del cluster come parte di una clusters.create.

Memorizzazione in cache del cluster Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.