Ce document explique comment activer les améliorations des performances de Dataproc Spark pour aider vos tâches Dataproc Spark à traiter plus de données en moins de temps et à moindre coût.
Les améliorations des performances de Dataproc Spark incluent les éléments suivants :
- Améliorations de l'optimiseur :
- Règles d'optimiseur écrites pour de meilleurs plans Spark
- Amélioration des performances du connecteur Dataproc BigQuery lorsqu'il est utilisé dans des tâches Spark
- Améliorations de l'exécution Spark :
- Améliorations du moteur d'exécution Spark
Vous pouvez activer les améliorations des performances de Spark sur un cluster ou sur une tâche Spark :
Les améliorations des performances de Spark activées sur un cluster s'appliquent, par défaut, à toutes les tâches Spark exécutées sur le cluster, qu'elles soient envoyées au service Dataproc ou directement au cluster.
Les améliorations des performances de Spark peuvent également être activées ou désactivées sur une tâche envoyée au service Dataproc. Les paramètres d'amélioration des performances de Spark appliqués à une tâche remplacent tous les paramètres conflictuels définis au niveau du cluster pour la tâche spécifiée uniquement.
Tarifs
Les améliorations des performances de Spark n'entraînent pas de frais supplémentaires. Les tarifs standards de Dataproc sur Compute Engine s'appliquent.
Remarques
Les améliorations des performances de Spark ajustent les propriétés Spark, y compris les suivantes propriétés :
spark.sql.shuffle.partitions: les améliorations des performances de Spark définissent cette propriété sur1000pour les clusters de version d'image2.2. Ce paramètre peut ralentir les petites tâches.spark.dataproc.sql.catalog.file.index.stats.enabled: Ce paramètre peut entraîner des conditions OOM (Out-Of-Memory) du pilote si le nombre de partitions Hive est élevé. La désactivation de cette propriété peut résoudre la condition OOM.
Activer les améliorations lors de la création du cluster
Vous pouvez utiliser la Google Cloud console, la Google Cloud CLI et l'API Dataproc pour activer les améliorations des performances de Dataproc Spark lorsque vous créez un cluster Dataproc avec les versions d'image 2.0.69+, 2.1.17+, 2.2.0+ et les versions d'image ultérieures.
Console
- Dans la Google Cloud console, ouvrez la page Dataproc Créer un cluster.
- Dans le formulaire Créer un cluster Dataproc, cliquez sur Créer sur la ligne Cluster sur Compute Engine.
- Sur la page Créer un cluster Dataproc sur Compute Engine ,
cliquez sur le panneau Personnaliser le cluster, puis faites défiler la page jusqu'à la
section Propriétés du cluster.
- Pour activer les améliorations de l'optimisation Spark :
- Cliquez sur + AJOUTER DES PROPRIÉTÉS.
- Sélectionnez spark dans la liste Préfixe, puis ajoutez "spark.dataproc.enhanced.optimizer.enabled" dans le champ Clé et "true" dans le champ Valeur.
- Pour activer les améliorations de l'exécution Spark :
- Cliquez sur + AJOUTER DES PROPRIÉTÉS.
- Sélectionnez spark dans la liste Préfixe, puis ajoutez "spark.dataproc.enhanced.execution.enabled" dans le champ Clé et "true" dans le champ Valeur.
- Pour activer les améliorations de l'optimisation Spark :
- Remplissez ou confirmez les autres champs de création de cluster, puis cliquez sur Créer.
gcloud
Exécutez en local la commande gcloud dataproc clusters create suivante dans une fenêtre de terminal ou dans Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \ --project=PROJECT_ID \ --region=REGION \ --image-version=IMAGE \ --properties=PROPERTIES
Remarques :
- CLUSTER_NAME : nom du cluster, qui doit être unique dans un projet. Le nom doit commencer par une lettre minuscule et peut contenir jusqu'à 51 lettres minuscules , chiffres et traits d'union. Il ne peut pas se terminer par un trait d'union. Le nom d'un cluster supprimé peut être réutilisé.
- PROJECT_ID : projet à associer au cluster.
- REGION : région Compute Engine dans laquelle le cluster sera situé, par exemple
us-central1.- Vous pouvez ajouter l'option facultative
--zone=ZONEindicateur pour spécifier une zone dans la région spécifiée, par exempleus-central1-a. Si vous ne spécifiez pas de zone, la fonctionnalité de placement automatique des zones de Dataproc en sélectionne une dans la région spécifiée.
- Vous pouvez ajouter l'option facultative
- IMAGE : les améliorations des performances de l'optimiseur et de l'exécution Spark de Dataproc sont disponibles dans les versions d'image
2.0.69+et2.1.17+de Dataproc, ainsi que dans les versions ultérieures. Si vous omettez cette option, Dataproc sélectionne la dernière version sous-mineure de l'image Dataproc par défaut sur Compute Engine pour le cluster (voir Version d'image Dataproc par défaut). PROPERTIES:
- Pour activer les améliorations de l'optimisation Spark, spécifiez :
spark:spark.dataproc.enhanced.optimizer.enabled=true- Pour activer les améliorations de l'exécution Spark, spécifiez :
spark:spark.dataproc.enhanced.execution.enabled=true- Pour activer les améliorations de l'optimisation et de l'exécution Spark, spécifiez :
spark:spark.dataproc.enhanced.optimizer.enabled=true,spark:spark.dataproc.enhanced.execution.enabled=true
API
Spécifiez les éléments suivants
SoftwareConfig.propertiesdans une requêteclusters.create:- Pour activer les améliorations de l'optimisation Spark, spécifiez :
"spark:spark.dataproc.enhanced.optimizer.enabled": "true"- Pour activer les améliorations de l'exécution Spark, spécifiez :
"spark:spark.dataproc.enhanced.execution.enabled": "true"- Pour activer les améliorations de l'optimisation et de l'exécution Spark, spécifiez :
"spark:spark.dataproc.enhanced.optimizer.enabled": "true","spark:spark.dataproc.enhanced.execution.enabled": "true"
Activer ou désactiver les améliorations lors de l'envoi d'une tâche
Vous pouvez utiliser la Google Cloud console, la Google Cloud CLI et l'API Dataproc pour activer ou désactiver les améliorations des performances de Spark sur une tâche Spark envoyée au service Dataproc.
Console
- Dans la Google Cloud console, ouvrez la page Tâches Dataproc.
- Sur la page Tâches, cliquez sur Envoyer une tâche, puis faites défiler la page jusqu'à la section
Propriétés de la tâche.
- Pour activer les améliorations de l'optimisation Spark :
- Cliquez sur + AJOUTER DES PROPRIÉTÉS. Ajoutez "spark.dataproc.enhanced.optimizer.enabled" dans le champ Clé et "true" dans le champ Valeur.
- Pour activer les améliorations de l'exécution Spark :
- Cliquez sur + AJOUTER DES PROPRIÉTÉS.
- Ajoutez "spark.dataproc.enhanced.execution.enabled" dans le champ Clé et "true" dans le champ Valeur.
- Pour activer les améliorations de l'optimisation Spark :
- Remplissez ou confirmez les autres champs d'envoi de tâche, puis cliquez sur Envoyer.
gcloud
Exécutez en local la commande gcloud dataproc jobs submit suivante dans une fenêtre de terminal ou dans Cloud Shell.
gcloud dataproc jobs submit SPARK_JOB_TYPE \ --cluster=CLUSTER_NAME \ --region=REGION \ --properties=PROPERTIES
Remarques :
- SPARK_JOB_TYPE : spécifiez
spark,pyspark,spark-sqlouspark-r. - CLUSTER_NAME : nom de la tâche où elle s'exécutera.
- REGION : région dans laquelle se trouve le cluster.
PROPERTIES:
- Pour activer les améliorations de l'optimisation Spark, spécifiez :
spark.dataproc.enhanced.optimizer.enabled=true- Pour activer les améliorations de l'exécution Spark, spécifiez :
spark.dataproc.enhanced.execution.enabled=true- Pour activer les améliorations de l'optimisation et de l'exécution Spark, spécifiez :
spark.dataproc.enhanced.optimizer.enabled=true,spark.dataproc.enhanced.execution.enabled=true
- SPARK_JOB_TYPE : spécifiez
API
Spécifiez les
propertiessuivants pour un SparkJob, PySparkJob, SparkSqlJob, ou SparkRJob dans une requêtejobs.submit:- Pour activer les améliorations de l'optimisation Spark, spécifiez :
"spark.dataproc.enhanced.optimizer.enabled=true"- Pour activer les améliorations de l'exécution Spark, spécifiez :
"spark.dataproc.enhanced.execution.enabled=true"- Pour activer les améliorations de l'optimisation et de l'exécution Spark, spécifiez :
"spark.dataproc.enhanced.execution.enabled=true,spark.dataproc.enhanced.optimizer.enabled=true"