"Managed Service for Apache Spark" is the new name for the product formerly known as "Dataproc on Compute Engine" (cluster deployment) and "Google Cloud Serverless for Apache Spark" (serverless deployment).

Google utilise la technologie IA pour traduire le contenu dans votre langue préférée. Les traductions générées par IA peuvent contenir des erreurs.

Prioriser les types de VM avec les VM flexibles

Les VM flexibles sont une fonctionnalité de Managed Service pour Apache Spark qui vous permet de spécifier des listes prioritaires de types de VM pour les nœuds maîtres, principaux et secondaires de Managed Service pour Apache Spark lorsque vous créez un cluster Managed Service pour Apache Spark.

Pourquoi utiliser des VM flexibles ?

Problème : si un type de VM n'est pas disponible lorsque vous envoyez une requête de création de cluster, la requête échoue. Vous devez alors la mettre à jour, ainsi que votre script ou votre code, pour spécifier un type de VM "le plus adapté". Ce processus de nouvelle requête peut impliquer plusieurs itérations jusqu'à ce que vous spécifiiez un type de VM disponible.

Solution : la fonctionnalité de VM flexible de Managed Service pour Apache Spark permet à votre requête de création de cluster de réussir en sélectionnant des types de VM maîtres, principaux et secondaires dans vos listes de VM classées, puis en recherchant des zones dans la région de cluster spécifiée où les types de VM listés sont disponibles.

Limites

Les clusters qui utilisent des VM flexibles ne peuvent pas être arrêtés.
Les nœuds maîtres des clusters à haute disponibilité ne peuvent pas utiliser de VM flexibles, mais les nœuds de calcul des clusters à haute disponibilité peuvent le faire.

Terminologie

Type de VM : famille, capacité de mémoire et nombre de cœurs de processeur d'une instance de VM. Managed Service pour Apache Spark est compatible avec l'utilisation de types de VM prédéfinis et personnalisés.
Dans ce document, les termes "type de VM" et "sélection d'instance" font référence à un type de machine compatible utilisé pour provisionner des VM dans un nœud maître de cluster ou un nœud de calcul.
Nœuds maîtres et principaux : par défaut, un cluster Managed Service pour Apache Spark comporte un nœud maître et deux nœuds de calcul principaux.
- Un cluster à haute disponibilité comporte trois nœuds maîtres.
- Un cluster à nœud unique comporte un nœud qui fait office de nœud maître et de nœud de calcul.
- Un cluster à zéro nœud comporte un nœud maître et des nœuds de calcul secondaires uniquement (aucun nœud de calcul principal).
Nœuds de calcul secondaires : les nœuds de calcul secondaires ne stockent pas de données et ne fonctionnent que comme des nœuds de traitement. Vous pouvez utiliser des nœuds de calcul secondaires pour faire évoluer le calcul sans faire évoluer le stockage. Le type de nœud de calcul secondaire de VM flexible par défaut est une VM Spot, qui est un type préemptif.

Utilisation

Les VM flexibles sont disponibles dans Managed Service pour Apache Spark sur les versions d'image 2.0.74+, 2.1.76+, 2.2.42+ et ultérieures de Managed Service pour Apache Spark. *. À partir de la version d'image 3.0, lorsque vous créez un cluster sans spécifier de type de machine pour un nœud de cluster, Managed Service pour Apache Spark spécifie le nœud avec une liste classée de types de machines de VM flexibles, par exemple une liste classée de types de machines des séries N4, N2 et E2 , la liste étant optimisée pour la disponibilité des ressources.
Vous pouvez spécifier jusqu'à cinq listes de types de VM classées, avec un maximum de 10 types de VM par liste.
Vous pouvez inclure des VM flexibles dans des modèles de workflow pour assurer la résilience en cas d'indisponibilité des ressources lorsque des clusters sont créés à partir du modèle.

Recommandation : activez le placement automatique des zones de Managed Service pour Apache Spark , ce qui permet à Managed Service pour Apache Spark de choisir une zone ayant la capacité de provisionner les VM demandées.
Par défaut, un nœud de cluster doit utiliser un seul type de disque. Vous pouvez utiliser des remplacements de disque pour spécifier différents types de disques pour différents types de machines spécifiés pour un nœud de cluster Flex VM.
Bien que vous puissiez spécifier différents rapports processeur/mémoire pour les types de VM de nœuds de calcul principaux et secondaires dans un cluster, cela peut entraîner une dégradation des performances, car le rapport processeur/mémoire le plus petit est utilisé comme unité de conteneur la plus petite.
Utilisez un rapport processeur/mémoire uniforme pour les nœuds de calcul principaux et secondaires, y compris les VM flexibles.
Si votre requête de création de cluster inclut une règle d'autoscaling, les VM flexibles peuvent appartenir à différentes familles de VM, mais elles doivent avoir la même quantité de mémoire et le même nombre de cœurs.
Lors du provisionnement de VM flexibles, Managed Service pour Apache Spark consomme les réservations disponibles "correspondantes", mais pas les réservations "spécifiques" (consultez Utiliser des instances réservées). Les types de machines qui correspondent aux réservations sont d'abord sélectionnés dans un classement, suivis des types de VM avec le plus grand nombre de processeurs.
Managed Service pour Apache Spark applique Google Cloud des quotas au provisionnement de VM flexibles.
Si vous mettez à jour un cluster créé à l'aide de VM flexibles, Managed Service pour Apache Spark sélectionne et ajoute des nœuds de calcul à partir des listes de VM flexibles que vous avez fournies lors de la création de votre cluster.

Comment demander des VM flexibles

Vous pouvez spécifier jusqu'à cinq listes de types de VM classées, avec un maximum de 10 types de VM par liste. Les listes les moins bien classées ont la priorité la plus élevée. Par défaut, les listes de VM flexibles ont un classement de 0. Dans une liste, Managed Service pour Apache Spark donne la priorité aux types de VM avec des réservations inutilisées, suivis des plus grandes tailles de VM. Les types de VM d'une liste ayant le même nombre de processeurs sont traités de manière égale.

Vous pouvez demander des VM flexibles lorsque vous créez un cluster Managed Service pour Apache Spark à l'aide de la Google Cloud console, de Google Cloud CLI ou de l'API Dataproc.

Console

Pour créer un cluster avec des VM flexibles, procédez comme suit :

Ouvrez la page **Créer un cluster**.
Cliquez sur Configuration supplémentaire pour développer cette section.
Modifiez Nœuds de calcul principaux ou Nœuds de calcul secondaires. Sous Ajouter des types de nœuds de calcul, spécifiez des VM classées supplémentaires.

gcloud

Utilisez la gcloud dataproc clusters create commande avec master-instance-selection, worker-instance-selection et secondary-worker-instance-selection options pour spécifier des listes de VM flexibles classées pour les nœuds maîtres, principaux et secondaires.

L'exemple suivant demande des types de VM maîtres, principaux et secondaires avec les priorités suivantes :

Provisionnez des VM e2-standard-8 si elles sont disponibles (classement 0). Si les machines e2-standard-8 ne sont pas disponibles, provisionnez des VM n2-standard-8 (classement 1).

Étant donné que le type de nœud de calcul secondaire n'est pas spécifié, des VM secondaires Spot préemptives seront provisionnées.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --zone="" \
    --master-instance-selection='{"machineTypes":["e2-standard-8"],"rank":0}' \
    --master-instance-selection='{"machineTypes":["n2-standard-8"],"rank":1}' \
    --num-workers=10 \
    --worker-instance-selection='{"machineTypes":["e2-standard-8"],"rank":0}' \
    --worker-instance-selection='{"machineTypes":["n2-standard-8"],"rank":1}' \
    --num-secondary-workers=4 \
    --secondary-worker-instance-selection='{"machineTypes":["e2-standard-8"],"rank":0}' \
    --secondary-worker-instance-selection='{"machineTypes":["n2-standard-8"],"rank":1}'

Remarques :

--zone="" : si vous définissez cette option sur une valeur vide, le placement automatique des zones est activé, ce qui permet à Managed Service pour Apache Spark de choisir une zone dans laquelle les types de VM demandés sont disponibles. La valeur de cette option remplace toute sélection de zone spécifiée dans votre gcloud config list par défaut.

API

Utilisez instanceFlexibilityPolicy.instanceSelectionList dans une requête clusters.create de l'API Dataproc pour spécifier une liste classée de machineTypes pour les nœuds maîtres, principaux et secondaires.

Exemple : l'extrait JSON suivant d'un clusters.create corps de requête spécifie les types de machines maîtres (masterConfig), principaux (workerConfig) et secondaires (secondaryWorkerConfig) avec les classements 0 et 1.

{
  "projectId": "PROJECT_ID",
  "clusterName": "CLUSTER_NAME",
  "config": {
    "gceClusterConfig": {
      "zoneUri": ""
    },
    "masterConfig": {
      "numInstances": 1,
      "instanceFlexibilityPolicy": {
        "instanceSelectionList": [
          {
            "machineTypes": ["e2-standard-8"],
            "rank": 0
          },
          {
            "machineTypes": ["n2-standard-8"],
            "rank": 1
          }
        ]
      }
    },
    "workerConfig": {
      "numInstances": 10,
      "instanceFlexibilityPolicy": {
        "instanceSelectionList": [
          {
            "machineTypes": ["e2-standard-8"],
            "rank": 0
          },
          {
            "machineTypes": ["n2-standard-8"],
            "rank": 1
          }
        ]
      }
    },
    "secondaryWorkerConfig": {
      "numInstances": 4,
      "instanceFlexibilityPolicy": {
        "instanceSelectionList": [
          {
            "machineTypes": ["e2-standard-8"],
            "rank": 0
          },
          {
            "machineTypes": ["n2-standard-8"],
            "rank": 1
          }
        ]
      }
    }
  }
}

Remplacements de disque

Vous pouvez spécifier des remplacements de disque pour chaque type de machine (sélection d'instance) dans votre spécification de VM flexible. Cela vous permet de personnaliser les disques de démarrage, de remplacer les disques SSD locaux et d'associer des disques supplémentaires pour des types de machines spécifiques.

Options et règles de remplacement de disque

Options de configuration de remplacement de disque :

Configuration de disque de base : configuration de disque spécifiée pour un nœud de cluster, par exemple, spécification d'une taille de disque de démarrage pour les nœuds de calcul principaux à l'aide de l'option --worker-boot-disk-size de gcloud CLI ou du champ workerConfig.diskConfig.bootDiskSizeGb de l'API Dataproc.
Remplacements de disque de sélection d'instance : configurations de disque pour les types de machines spécifiés pour un nœud de cluster.

Règles de configuration de remplacement de disque :

Configuration de disque de base : si aucune sélection d'instance pour un nœud de cluster n'inclut de remplacement diskConfig, vous pouvez définir une configuration de disque de base pour le nœud. Cette configuration de disque de base est appliquée à toutes les sélections d'instance pour le nœud.
Configurations de disque de sélection d'instance : si une sélection d'instance pour un nœud de cluster inclut un remplacement diskConfig, toutes les sélections d'instance du groupe de nœuds doivent inclure un diskConfig (si vous définissez également une configuration de disque de base pour le nœud, une erreur de validation se produit).
Compatibilité des types de machines : tous les types de machines d'un même InstanceSelection doivent être compatibles avec le diskConfig spécifié. Par exemple, vous ne pouvez pas regrouper un type de machine e2-standard-4, qui n'est pas compatible avec un hyperdisque, avec un type de machine n4-standard-4, qui nécessite un hyperdisque, dans la même sélection d'instance, car le diskConfig ne peut pas satisfaire les deux types de machines.
Compatibilité avec les disques SSD locaux : si vous configurez des disques SSD locaux (numLocalSsds > 0) dans une configuration de remplacement de disque, tous les types de machines de la sélection d'instance doivent être compatibles avec les disques SSD locaux.
Champs de configuration de remplacement de disque obligatoires :
- Si vous définissez diskConfig pour une sélection d'instance, bootDiskType est obligatoire.
- Si vous définissez attachedDiskConfigs, diskType et diskSizeGb sont obligatoires pour chaque disque associé.

Exemples de configuration de remplacement de disque

L'exemple suivant spécifie les options de configuration de remplacement de disque suivantes pour les nœuds de cluster suivants :

Nœuds maîtres : utilisez les disques de démarrage par défaut.
Nœuds de calcul principaux : utilisez des disques personnalisés par sélection d'instance. Par exemple, n4-standard-4 utilise hyperdisk-balanced, tandis que n2-standard-4 utilise pd-standard.
Nœuds de calcul secondaires : utilisez une configuration de disque de base personnalisée : pd-ssd avec 200 GB, qui est appliquée à toutes les sélections d'instance.

gcloud YAML

Définissez les règles de VM flexibles dans des fichiers YAML pour les nœuds maîtres, principaux et secondaires :

master-flex-policy.yaml:

instanceFlexibilityPolicy:
  instanceSelectionList:
  - machineTypes:
    - e2-standard-8
    rank: 0
  - machineTypes:
    - n2-standard-8
    rank: 1

worker-flex-policy.yaml :

instanceFlexibilityPolicy:
  instanceSelectionList:
  - machineTypes:
    - n4-standard-4
    rank: 0
    diskConfig:
      bootDiskType: hyperdisk-balanced
      bootDiskSizeGb: 100
      bootDiskProvisionedIops: 6000
      bootDiskProvisionedThroughput: 400
      attachedDiskConfigs:
      - diskType: hyperdisk-throughput
        diskSizeGb: 300
  - machineTypes:
    - n2-standard-4
    rank: 0
    diskConfig:
      bootDiskType: pd-standard
      bootDiskSizeGb: 400

secondary-worker-flex-policy.yaml:

instanceFlexibilityPolicy:
  instanceSelectionList:
  - machineTypes:
    - e2-standard-8
    rank: 0
  - machineTypes:
    - n2-standard-8
    rank: 1

Utilisez la gcloud alpha dataproc clusters create commande pour transmettre les fichiers de règles :

gcloud alpha dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --zone="" \
    --num-masters=1 \
    --master-instance-flexibility-policy-file=master-flex-policy.yaml \
    --num-workers=10 \
    --worker-instance-flexibility-policy-file=worker-flex-policy.yaml \
    --num-secondary-workers=4 \
    --secondary-worker-boot-disk-type=pd-ssd \
    --secondary-worker-boot-disk-size=200 \
    --secondary-worker-instance-flexibility-policy-file=secondary-worker-flex-policy.yaml

gcloud JSON

Utilisez la gcloud alpha dataproc clusters create commande avec des spécifications diskConfig JSON intégrées dans --worker-instance-selection :

gcloud alpha dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --zone="" \
    --num-masters=1 \
    --master-instance-selection='{"machineTypes":["e2-standard-8"],"rank":0}' \
    --master-instance-selection='{"machineTypes":["n2-standard-8"],"rank":1}' \
    --num-workers=10 \
    --worker-instance-selection='{"machineTypes":["n4-standard-4"],"rank":0,"diskConfig":{"bootDiskType":"hyperdisk-balanced","bootDiskSizeGb":100,"bootDiskProvisionedIops":6000,"bootDiskProvisionedThroughput":400,"attachedDiskConfigs":[{"diskType":"hyperdisk-throughput","diskSizeGb":300}]}}' \
    --worker-instance-selection='{"machineTypes":["n2-standard-4"],"rank":0,"diskConfig":{"bootDiskType":"pd-standard","bootDiskSizeGb":400}}' \
    --num-secondary-workers=4 \
    --secondary-worker-boot-disk-type=pd-ssd \
    --secondary-worker-boot-disk-size=200 \
    --secondary-worker-instance-selection='{"machineTypes":["e2-standard-8"],"rank":0}' \
    --secondary-worker-instance-selection='{"machineTypes":["n2-standard-8"],"rank":1}'

API

Utilisez le champ diskConfig dans un instanceFlexibilityPolicy.instanceSelectionList dans une requête clusters.create de l'API Dataproc.

Exemple de corps de requête JSON :

{
  "projectId": "PROJECT_ID",
  "clusterName": "CLUSTER_NAME",
  "config": {
    "gceClusterConfig": {
      "zoneUri": ""
    },
    "masterConfig": {
      "numInstances": 1,
      "instanceFlexibilityPolicy": {
        "instanceSelectionList": [
          {
            "machineTypes": ["e2-standard-8"],
            "rank": 0
          },
          {
            "machineTypes": ["n2-standard-8"],
            "rank": 1
          }
        ]
      }
    },
    "workerConfig": {
      "numInstances": 10,
      "instanceFlexibilityPolicy": {
        "instanceSelectionList": [
          {
            "machineTypes": ["n4-standard-4"],
            "rank": 0,
            "diskConfig": {
              "bootDiskType": "hyperdisk-balanced",
              "bootDiskSizeGb": 100,
              "bootDiskProvisionedIops": 6000,
              "bootDiskProvisionedThroughput": 400,
              "attachedDiskConfigs": [
                {
                  "diskType": "HYPERDISK_THROUGHPUT",
                  "diskSizeGb": 2048
                }
              ]
            }
          },
          {
            "machineTypes": ["n2-standard-4"],
            "rank": 0,
            "diskConfig": {
              "bootDiskType": "pd-standard",
              "bootDiskSizeGb": 400
            }
          }
        ]
      }
    },
    "secondaryWorkerConfig": {
      "numInstances": 4,
      "diskConfig": {
        "bootDiskType": "pd-ssd",
        "bootDiskSizeGb": 200
      },
      "instanceFlexibilityPolicy": {
        "instanceSelectionList": [
          {
            "machineTypes": ["e2-standard-8"],
            "rank": 0
          },
          {
            "machineTypes": ["n2-standard-8"],
            "rank": 1
          }
        ]
      }
    }
  }
}

Remplacer les propriétés de VM Flex

Managed Service pour Apache Spark définit les propriétés au niveau du cluster. Lorsque vous créez un cluster qui utilise des VM flexibles, vous pouvez remplacer les propriétés générées par le système pour les types de VM Flex de nœuds de calcul principaux et secondaires.

gcloud

Pour remplacer des propriétés lorsque vous créez un cluster, utilisez l'option --properties avec la syntaxe suivante :

--properties="$ROLE:$MACHINE_TYPE:$COMPONENT_PREFIX:$COMPONENT_PROPERTY=$VALUE"

ROLE peut être primary_worker ou secondary_worker.
Séparez plusieurs propriétés par une virgule.

La commande gcloud dataproc clusters create suivante remplace le nombre de processeurs virtuels que YARN alloue à NodeManager sur les nœuds de calcul secondaires. Cet exemple définit la valeur yarn.nodemanager.resource.cpu-vcores dans yarn-site.xml sur 6 pour toutes les VM de nœuds de calcul secondaires e2-standard-8 et n2-standard-8.

gcloud dataproc clusters create CLUSTER_NAME \
    --num-workers=10 \
    --num-secondary-workers=4 \
    --worker-machine-types="type=e2-standard-8,rank=0" \
    --worker-machine-types="type=n2-standard-8,rank=1" \
    --master-machine-types="type=e2-standard-8,rank=0" \
    --master-machine-types="type=n2-standard-8,rank=1" \
    --secondary-worker-machine-types="type=e2-standard-8,rank=0" \
    --secondary-worker-machine-types="type=n2-standard-8,rank=1" \
    --region=us-central1 \
    --zone="" \
    --properties="secondary_worker:e2-standard-8:yarn:yarn.nodemanager.resource.cpu-vcores=6,secondary_worker:n2-standard-8:yarn:yarn.nodemanager.resource.cpu-vcores=6"

API

Pour remplacer des propriétés, définissez-les dans le properties champ de l' SoftwareConfig objet de votre requête de création de cluster.

Utilisez la syntaxe suivante pour la clé de propriété :

ROLE:MACHINE_TYPE:COMPONENT_PREFIX:COMPONENT_PROPERTY

ROLE peut être primary_worker ou secondary_worker.

L'objet SoftwareConfig suivant remplace le nombre de processeurs virtuels que YARN alloue à NodeManager sur les nœuds de calcul secondaires. Cet exemple définit la valeur yarn.nodemanager.resource.cpu-vcores sur 6 pour toutes les VM de nœuds de calcul secondaires e2-standard-8 et n2-standard-8.

{
  "imageVersion":"2.2.42",
  "properties": {
    "secondary_worker:e2-standard-8:yarn:yarn.nodemanager.resource.cpu-vcores" : "6",
    "secondary_worker:n2-standard-8:yarn:yarn.nodemanager.resource.cpu-vcores" : "6"
  }
}

Étape suivante

En savoir plus sur les propriétés des clusters Managed Service pour Apache Spark.
Découvrez comment créer un cluster Managed Service pour Apache Spark.

Prioriser les types de VM avec les VM flexibles Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Pourquoi utiliser des VM flexibles ?

Limites

Terminologie

Utilisation

Comment demander des VM flexibles

Console

gcloud

API

Remplacements de disque

Options et règles de remplacement de disque

Exemples de configuration de remplacement de disque

gcloud YAML

gcloud JSON

API

Remplacer les propriétés de VM Flex

gcloud

API

Étape suivante

Prioriser les types de VM avec les VM flexibles