"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google utilise la technologie IA pour traduire le contenu dans votre langue préférée. Les traductions générées par IA peuvent contenir des erreurs.

Mise en cache du cluster

Lorsque vous activez la mise en cache des clusters Managed Service pour Apache Spark, le cluster met en cache les données Cloud Storage auxquelles vos jobs Spark accèdent fréquemment.

Avantages

Performances améliorées : la mise en cache peut améliorer les performances des jobs en réduisant le temps nécessaire pour récupérer les données à partir du stockage.
Coûts de stockage réduits : comme les données à chaud sont mises en cache sur le disque local, moins d'appels d'API sont effectués vers le stockage pour récupérer les données.
Applicabilité des jobs Spark : lorsque la mise en cache des clusters est activée sur un cluster, elle s'applique à tous les jobs Spark exécutés sur le cluster, qu'ils soient envoyés à Managed Service pour Apache Spark ou exécutés indépendamment sur le cluster.

Limites et exigences

La mise en cache ne s'applique qu'aux jobs Managed Service pour Apache Spark.
Seules les données Cloud Storage sont mises en cache.
La mise en cache ne s'applique qu'aux clusters qui répondent aux exigences suivantes :
- Le cluster comporte un maître et n nœuds de calcul (les clusters à haute disponibilité et à nœud unique ne sont pas compatibles).
- Cette fonctionnalité est disponible dans les versions d'image Managed Service pour Apache Spark 2.0.72+, 2.1.20+, et 2.2.0+.
- Chaque nœud de cluster doit être associé à des disques SSD locaux avec l' interface NVME (Non-Volatile Memory Express) (les disques persistants ne sont pas compatibles). Les données ne sont mises en cache que sur les disques SSD locaux NVME.
- Le cluster utilise le compte de service de VM par défaut pour l'authentification. Les comptes de service de VM personnalisés ne sont pas compatibles.

Activer la mise en cache des clusters

Vous pouvez activer la mise en cache des clusters lorsque vous créez un cluster Managed Service pour Apache Spark à l'aide de la Google Cloud console, de Google Cloud CLI ou de l'API Dataproc.

Google Cloud Console

Ouvrez la Google Cloud console Créer un cluster page.
Cliquez sur Configuration supplémentaire pour développer cette section.
Modifiez Personnalisation et autres.
Dans le panneau qui s'ouvre, dans la section Propriétés du cluster, cliquez sur + Ajouter des propriétés.
Sélectionnez dataproc dans la liste Préfixe, puis ajoutez la clé dataproc.cluster.caching.enabled et la valeur true.

gcloud CLI

Exécutez la commande gcloud dataproc clusters create en local dans une fenêtre de terminal ou dans Cloud Shell à l'aide de la propriété de clusterdataproc:dataproc.cluster.caching.enabled=true.

Exemple :

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...

API REST

Définissez SoftwareConfig.properties pour inclure la "dataproc:dataproc.cluster.caching.enabled": "true" propriété de cluster dans le cadre d'une clusters.create.

Mise en cache du cluster Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.