Quando abiliti la memorizzazione nella cache dei cluster Dataproc, il cluster memorizza nella cache i dati di Cloud Storage a cui accedono di frequente i job Spark.
Vantaggi
- Prestazioni migliorate: la memorizzazione nella cache può migliorare le prestazioni dei job riducendo la quantità di tempo necessario per recuperare i dati dallo spazio di archiviazione.
- Costi di archiviazione ridotti: poiché i dati attivi vengono memorizzati nella cache sul disco locale, vengono effettuate meno chiamate API allo spazio di archiviazione per recuperare i dati.
- Applicabilità dei job Spark: quando la memorizzazione nella cache dei cluster è abilitata su un cluster, si applica a tutti i job Spark eseguiti sul cluster, indipendentemente dal fatto che siano stati inviati al servizio Dataproc o eseguiti in modo indipendente sul cluster.
Limitazioni e requisiti
- La memorizzazione nella cache si applica solo ai job Spark di Dataproc.
- Vengono memorizzati nella cache solo i dati di Cloud Storage.
- La memorizzazione nella cache si applica solo ai cluster che soddisfano i seguenti requisiti:
- Il cluster ha un master e
nworker (i cluster a disponibilità elevata (HA) e a nodo singolo non sono supportati). - Questa funzionalità è disponibile nelle versioni immagine di Dataproc su Compute Engine
2.0.72+,2.1.20+, e2.2.0+. - Ogni nodo del cluster deve avere SSD locali collegati con l'interfaccia NVME (Non-Volatile Memory Express) (i dischi permanenti non sono supportati). I dati vengono memorizzati nella cache solo sugli SSD locali NVME.
- Il cluster utilizza il service account VM predefinito per l'autenticazione. I service account VM personalizzati non sono supportati.
- Il cluster ha un master e
Abilitare la memorizzazione nella cache dei cluster
Puoi abilitare la memorizzazione nella cache dei cluster quando crei un cluster Dataproc utilizzando la Google Cloud console, l'interfaccia a riga di comando gcloud o l'API Dataproc.
Google Cloud Console
- Apri la pagina Crea un cluster su Compute Engine di Dataproc nella Google Cloud console.
- Il riquadro Configura cluster è selezionato. Nella sezione Miglioramenti delle prestazioni di Spark, seleziona Abilita la memorizzazione nella cache di Google Cloud Storage.
- Dopo aver confermato e specificato i dettagli del cluster nei riquadri di creazione del cluster, fai clic su Crea.
Interfaccia a riga di comando gcloud
Esegui il comando gcloud dataproc clusters create
localmente in una finestra del terminale o in
Cloud Shell
utilizzando la proprietà del cluster
dataproc:dataproc.cluster.caching.enabled=true.
Esempio:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
API REST
Imposta SoftwareConfig.properties
in modo da includere la "dataproc:dataproc.cluster.caching.enabled": "true"
proprietà del cluster
come parte di una
clusters.create.