Créer un cluster Dataproc à échelle nulle

Ce document explique comment créer un cluster Dataproc à zéro nœud.

Les clusters Dataproc à zéro nœud constituent un moyen économique d'utiliser des clusters Dataproc. Contrairement aux clusters Dataproc standards qui nécessitent au moins deux nœuds de calcul principaux, les clusters Dataproc à zéro nœud n'utilisent que des nœuds de calcul secondaires qui peuvent être réduits à zéro.

Les clusters Dataproc à zéro nœud sont idéaux pour une utilisation en tant que clusters de longue durée qui connaissent des périodes d'inactivité, comme un cluster hébergeant un notebook Jupiter. Ils améliorent l'utilisation des ressources grâce à l'utilisation de règles d'autoscaling à zéro nœud.

Caractéristiques et limites

Un cluster Dataproc à zéro nœud présente des similitudes avec un cluster standard cluster, mais présente les caractéristiques et limites uniques suivantes :

  • Nécessite la version d'image 2.2.53 ou une version ultérieure.
  • N'est compatible qu'avec les nœuds de calcul secondaires, et non avec les nœuds de calcul principaux.
  • Inclut des services tels que YARN, mais n'est pas compatible avec le système de fichiers HDFS.

    • Pour utiliser Cloud Storage comme système de fichiers par défaut, définissez la core:fs.defaultFS propriété de cluster sur un emplacement de bucket Cloud Storage (gs://BUCKET_NAME).
    • Si vous désactivez un composant lors de la création du cluster, désactivez également HDFS.
  • Ne peut pas être converti en cluster standard ni à partir d'un cluster standard.

  • Nécessite une règle d'autoscaling pour les types de clusters ZERO_SCALE.

  • Nécessite la sélection de VM flexibles comme type de machine.

  • N'est pas compatible avec le composant Oozie.

  • Ne peut pas être créé à partir de la Google Cloud console.

Facultatif : Configurer une règle d'autoscaling

Vous pouvez configurer une règle d'autoscaling pour définir la mise à l'échelle des nœuds de calcul secondaires pour un cluster à zéro nœud. Dans ce cas, tenez compte des points suivants :

  • Définissez le type de cluster sur ZERO_SCALE.
  • Configurez une règle d'autoscaling uniquement pour la configuration des nœuds de calcul secondaires.

Pour en savoir plus, consultez Créer une règle d'autoscaling.

Créer un cluster Dataproc à zéro nœud

Créez un cluster à zéro nœud à l'aide de la gcloud CLI ou de l'API Dataproc.

gcloud

Exécutez gcloud dataproc clusters create la commande en local dans une fenêtre de terminal ou dans Cloud Shell.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --cluster-type=zero-scale \
    --autoscaling-policy=AUTOSCALING_POLICY \
    --properties=core:fs.defaultFS=gs://BUCKET_NAME \
    --secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
    ...other args

Remplacez les éléments suivants :

  • CLUSTER_NAME : nom du cluster Dataproc à zéro nœud.
  • REGION : région Compute Engine disponible.
  • AUTOSCALING_POLICY : ID ou URI de ressource de la règle d'autoscaling.
  • BUCKET_NAME : nom de votre bucket Cloud Storage.
  • MACHINE_TYPE : type de machine Compute Engine spécifique, tel que n1-standard-4, e2-standard-8.
  • RANK : définit la priorité d'une liste de types de machines.

REST

Créez un cluster à zéro nœud à l'aide d'une requête cluster.create de l'API REST Dataproc cluster.create :

Étape suivante