Lorsque vous activez la mise en cache des clusters Dataproc, le cluster met en cache les données Cloud Storage fréquemment consultées par vos tâches Spark.
Avantages
- Amélioration des performances : la mise en cache peut améliorer les performances des tâches en réduisant le temps nécessaire à la récupération des données à partir du stockage.
- Réduction des coûts de stockage : comme les données à chaud sont mises en cache sur le disque local, moins d'appels d'API sont effectués vers le stockage pour récupérer les données.
- Applicabilité des tâches Spark : lorsque la mise en cache des clusters est activée sur un cluster, elle s'applique à toutes les tâches Spark exécutées sur le cluster, qu'elles soient envoyées au service Dataproc ou exécutées indépendamment sur le cluster.
Limites et exigences
- La mise en cache s'applique uniquement aux tâches Spark Dataproc.
- Seules les données Cloud Storage sont mises en cache.
- La mise en cache ne s'applique qu'aux clusters qui répondent aux exigences suivantes :
- Le cluster comporte un maître et
nnœuds de calcul (les clusters à haute disponibilité et à nœud unique ne sont pas compatibles). - Cette fonctionnalité est disponible dans les versions d'image Dataproc sur Compute Engine
2.0.72+,2.1.20+, et2.2.0+. - Chaque nœud de cluster doit être associé à des disques SSD locaux avec l' interface NVME (Non-Volatile Memory Express) (les disques persistants ne sont pas compatibles). Les données ne sont mises en cache que sur les disques SSD locaux NVME.
- Le cluster utilise le compte de service de VM par défaut pour l'authentification. Les comptes de service de VM personnalisés ne sont pas compatibles.
- Le cluster comporte un maître et
Activer la mise en cache des clusters
Vous pouvez activer la mise en cache des clusters lorsque vous créez un cluster Dataproc à l'aide de la Google Cloud console, de la CLI Google Cloud ou de l'API Dataproc.
Google Cloud Console
- Ouvrez la page Dataproc Créer un cluster sur Compute Engine dans la Google Cloud console.
- Le panneau Configurer un cluster est sélectionné. Dans la section Améliorations des performances Spark, sélectionnez Activer la mise en cache Google Cloud Storage.
- Après avoir confirmé et spécifié les détails du cluster dans les panneaux de création de cluster, cliquez sur Créer.
CLI gcloud
Exécutez la commande gcloud dataproc clusters create en local dans une fenêtre de terminal ou dans Cloud Shell à l'aide de la propriété de clusterdataproc:dataproc.cluster.caching.enabled=true.
Exemple :
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
API REST
Définissez SoftwareConfig.properties
pour inclure la "dataproc:dataproc.cluster.caching.enabled": "true"
propriété de cluster
dans le cadre d'une
clusters.create.