Mise en cache du cluster

Lorsque vous activez la mise en cache des clusters Managed Service pour Apache Spark, le cluster met en cache les données Cloud Storage auxquelles vos jobs Spark accèdent fréquemment.

Avantages

  • Amélioration des performances : la mise en cache peut améliorer les performances des jobs en réduisant le temps nécessaire pour récupérer les données à partir du stockage.
  • Réduction des coûts de stockage : comme les données à chaud sont mises en cache sur le disque local, moins d'appels d'API sont effectués vers le stockage pour récupérer les données.
  • Applicabilité des jobs Spark : lorsque la mise en cache des clusters est activée sur un cluster, elle s'applique à tous les jobs Spark exécutés sur le cluster, qu'ils soient envoyés à Managed Service pour Apache Spark ou exécutés indépendamment sur le cluster.

Limites et exigences

Activer la mise en cache des clusters

Vous pouvez activer la mise en cache des clusters lorsque vous créez un cluster Managed Service pour Apache Spark à l'aide de la Google Cloud console, de Google Cloud CLI ou de l'API Dataproc.

Google Cloud Console

  • Ouvrez la page Créer un cluster de Managed Service pour Apache Spark dans la Google Cloud console.
  • Le panneau Configurer un cluster est sélectionné. Dans la section Améliorations des performances Spark, sélectionnez Activer la mise en cache Google Cloud Storage.
  • Après avoir confirmé et spécifié les détails du cluster dans les panneaux de création de cluster, cliquez sur Créer.

gcloud CLI

Exécutez la commande gcloud dataproc clusters create en local dans une fenêtre de terminal ou dans Cloud Shell à l'aide de la propriété de clusterdataproc:dataproc.cluster.caching.enabled=true.

Exemple :

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

API REST

Définissez SoftwareConfig.properties pour inclure la "dataproc:dataproc.cluster.caching.enabled": "true" propriété de cluster dans le cadre d'une clusters.create.