Memorizzazione in cache del cluster

Quando abiliti la memorizzazione nella cache dei cluster di Managed Service per Apache Spark, il cluster memorizza nella cache i dati di Cloud Storage a cui accedono di frequente i job Spark.

Vantaggi

  • Prestazioni migliorate: la memorizzazione nella cache può migliorare le prestazioni dei job riducendo il tempo necessario per recuperare i dati dallo spazio di archiviazione.
  • Costi di archiviazione ridotti: poiché i dati attivi vengono memorizzati nella cache sul disco locale, vengono effettuate meno chiamate API allo spazio di archiviazione per recuperare i dati.
  • Applicabilità dei job Spark: quando la memorizzazione nella cache dei cluster è abilitata su un cluster, si applica a tutti i job Spark eseguiti sul cluster, indipendentemente dal fatto che siano stati inviati al servizio Managed Service per Apache Spark o eseguiti in modo indipendente sul cluster.

Limitazioni e requisiti

  • La memorizzazione nella cache si applica solo ai job Spark di Managed Service per Apache Spark.
  • Vengono memorizzati nella cache solo i dati di Cloud Storage.
  • La memorizzazione nella cache si applica solo ai cluster che soddisfano i seguenti requisiti:

Abilitare la memorizzazione nella cache dei cluster

Puoi abilitare la memorizzazione nella cache dei cluster quando crei un cluster Managed Service per Apache Spark utilizzando la Google Cloud console, Google Cloud CLI o l'API Dataproc.

Google Cloud Console

  • Apri la pagina Crea un cluster di Managed Service per Apache Spark nella Google Cloud console.
  • Il riquadro Configura cluster è selezionato. Nella sezione Miglioramenti delle prestazioni di Spark, seleziona Abilita la memorizzazione nella cache di Google Cloud Storage.
  • Dopo aver confermato e specificato i dettagli del cluster nei riquadri di creazione del cluster, fai clic su Crea.

Gcloud CLI

Esegui il comando gcloud dataproc clusters create localmente in una finestra del terminale o in Cloud Shell utilizzando la proprietà del cluster dataproc:dataproc.cluster.caching.enabled=true.

Esempio:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

API REST

Imposta SoftwareConfig.properties in modo da includere la "dataproc:dataproc.cluster.caching.enabled": "true" proprietà del cluster come parte di una clusters.create.