Memorizzazione in cache del cluster

Quando abiliti la memorizzazione nella cache dei cluster Dataproc, il cluster memorizza nella cache i dati di Cloud Storage a cui accedono di frequente i job Spark.

Vantaggi

  • Prestazioni migliorate: la memorizzazione nella cache può migliorare le prestazioni dei job riducendo la quantità di tempo necessario per recuperare i dati dallo spazio di archiviazione.
  • Costi di archiviazione ridotti: poiché i dati attivi vengono memorizzati nella cache sul disco locale, vengono effettuate meno chiamate API allo spazio di archiviazione per recuperare i dati.
  • Applicabilità dei job Spark: quando la memorizzazione nella cache dei cluster è abilitata su un cluster, si applica a tutti i job Spark eseguiti sul cluster, indipendentemente dal fatto che siano stati inviati al servizio Dataproc o eseguiti in modo indipendente sul cluster.

Limitazioni e requisiti

  • La memorizzazione nella cache si applica solo ai job Spark di Dataproc.
  • Vengono memorizzati nella cache solo i dati di Cloud Storage.
  • La memorizzazione nella cache si applica solo ai cluster che soddisfano i seguenti requisiti:

Abilitare la memorizzazione nella cache dei cluster

Puoi abilitare la memorizzazione nella cache dei cluster quando crei un cluster Dataproc utilizzando la Google Cloud console, l'interfaccia a riga di comando gcloud o l'API Dataproc.

Google Cloud Console

  • Apri la pagina Crea un cluster su Compute Engine di Dataproc nella Google Cloud console.
  • Il riquadro Configura cluster è selezionato. Nella sezione Miglioramenti delle prestazioni di Spark, seleziona Abilita la memorizzazione nella cache di Google Cloud Storage.
  • Dopo aver confermato e specificato i dettagli del cluster nei riquadri di creazione del cluster, fai clic su Crea.

Interfaccia a riga di comando gcloud

Esegui il comando gcloud dataproc clusters create localmente in una finestra del terminale o in Cloud Shell utilizzando la proprietà del cluster dataproc:dataproc.cluster.caching.enabled=true.

Esempio:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

API REST

Imposta SoftwareConfig.properties in modo da includere la "dataproc:dataproc.cluster.caching.enabled": "true" proprietà del cluster come parte di una clusters.create.