Créer un cluster Managed Service pour Apache Spark à zéro nœud

Ce document explique comment créer un cluster Managed Service pour Apache Spark à zéro nœud.

Les clusters à zéro nœud Managed Service pour Apache Spark offrent un moyen économique d'utiliser les clusters Managed Service pour Apache Spark. Contrairement aux clusters Managed Service pour Apache Spark standards qui nécessitent au moins deux nœuds de calcul principaux, les clusters Managed Service pour Apache Spark à scaling zéro n'utilisent que des nœuds de calcul secondaires qui peuvent être mis à l'échelle à zéro.

Les clusters Managed Service pour Apache Spark à zéro nœud sont idéaux pour une utilisation en tant que clusters de longue durée qui connaissent des périodes d'inactivité, comme un cluster qui héberge un notebook Jupiter. Elles permettent d'améliorer l'utilisation des ressources grâce à des règles d'autoscaling à zéro échelle.

Caractéristiques et limites

Un cluster Managed Service pour Apache Spark à zéro nœud présente des similitudes avec un cluster standard, mais il présente les caractéristiques et les limites uniques suivantes :

  • Nécessite la version 2.2.53 ou ultérieure de l'image.
  • Ne prend en charge que les nœuds de calcul secondaires, et non les nœuds de calcul principaux.
  • Inclut des services tels que YARN, mais n'est pas compatible avec le système de fichiers HDFS.

    • Pour utiliser Cloud Storage comme système de fichiers par défaut, définissez la propriété de cluster core:fs.defaultFS sur un emplacement de bucket Cloud Storage (gs://BUCKET_NAME).
    • Si vous désactivez un composant lors de la création du cluster, désactivez également HDFS.
  • Ne peut pas être converti en cluster standard ni à partir d'un cluster standard.

  • Nécessite une règle d'autoscaling pour les types de clusters ZERO_SCALE.

  • Nécessite de sélectionner des VM flexibles comme type de machine.

  • Ne prend pas en charge le composant Oozie.

  • Vous ne pouvez pas créer de magasin de caractéristiques à partir de la console Google Cloud .

Facultatif : Configurez une stratégie d'autoscaling.

Vous pouvez configurer une règle d'autoscaling pour définir le scaling des nœuds de calcul secondaires pour un cluster à zéro nœud. Lorsque vous le faites, tenez compte des points suivants :

  • Définissez le type de cluster sur ZERO_SCALE.
  • Configurez une règle d'autoscaling uniquement pour la configuration des nœuds de calcul secondaires.

Pour en savoir plus, consultez Créer une règle d'autoscaling.

Créer un cluster Managed Service pour Apache Spark à zéro nœud

Créez un cluster à zéro nœud à l'aide de la gcloud CLI ou de l'API Dataproc.

gcloud

Exécutez la commande gcloud dataproc clusters create en local dans une fenêtre de terminal ou dans Cloud Shell.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --cluster-type=zero-scale \
    --autoscaling-policy=AUTOSCALING_POLICY \
    --properties=core:fs.defaultFS=gs://BUCKET_NAME \
    --secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
    ...other args

Remplacez les éléments suivants :

  • CLUSTER_NAME : nom du cluster à zéro nœud Managed Service pour Apache Spark.
  • REGION : région Compute Engine disponible.
  • AUTOSCALING_POLICY : ID ou URI de ressource de la règle de scaling automatique.
  • BUCKET_NAME : nom de votre bucket Cloud Storage.
  • MACHINE_TYPE : type de machine Compute Engine spécifique, tel que n1-standard-4, e2-standard-8.
  • RANK : définit la priorité d'une liste de types de machines.

REST

Créez un cluster à zéro nœud à l'aide d'une requête cluster.create de l'API REST Managed Service pour Apache Spark :

Étapes suivantes