Créer un cluster Slurm entièrement géré pour les charges de travail d'IA

Ce document explique comment configurer et déployer un cluster Slurm entièrement géré qui utilise les types de machines A4X, A4, A3 Ultra, A3 Mega ou A3 High. Pour en savoir plus sur ces types de machines optimisés pour les accélérateurs, consultez Types de machines GPU.

Les étapes de ce document vous expliquent comment créer un cluster Slurm à l'aide de Cluster Director. Cluster Director est un produit Google Cloudqui automatise la configuration des clusters Slurm. Il est conçu pour les administrateurs informatiques et les chercheurs en IA qui souhaitent éviter la surcharge liée à la gestion d'un cluster et se concentrer sur l'exécution de leurs charges de travail. Si vous souhaitez mieux contrôler le déploiement et la gestion de votre cluster, créez-le à l'aide de Cluster Toolkit.

Limites

Les limites suivantes s'appliquent en fonction du type de machine utilisé par les instances Compute Engine de votre cluster :

A4X

A4

  • Vous ne bénéficiez ni de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexible pour les instances qui utilisent un type de machine A4.
  • Vous ne pouvez utiliser un type de machine A4 que dans certaines régions et zones.
  • Vous ne pouvez pas utiliser de disque persistant (régional ou zonal). Vous ne pouvez utiliser que Google Cloud Hyperdisk.
  • Le type de machine A4 n'est disponible que sur la plate-forme de processeur Emerald Rapids.
  • Vous ne pouvez pas modifier le type de machine d'une instance en type de machine A4 ni inversement. Vous devez créer une instance avec ce type de machine.
  • Les types de machines A4 ne prennent pas en charge la location unique.
  • Vous ne pouvez pas exécuter de systèmes d'exploitation Windows sur un type de machine A4.
  • Pour les instances A4, lorsque vous utilisez ethtool -S pour surveiller la mise en réseau des GPU, les compteurs de ports physiques se terminant par _phy ne sont pas mis à jour. Il s'agit du comportement attendu pour les instances qui utilisent l'architecture de fonction virtuelle (VF) MRDMA. Pour en savoir plus, consultez Fonctions MRDMA et outils de surveillance du réseau.
  • Vous ne pouvez pas associer les disques Hyperdisk ML créés avant le 4 février 2026 aux types de machines A4.

A3 Ultra

A3 Mega

A3 High

Avant de commencer

Avant de créer un cluster Slurm, si ce n'est pas déjà fait, procédez comme suit :

  1. Choisissez une option de consommation : l'option de consommation que vous choisissez détermine comment vous obtenez et utilisez les ressources GPU. Pour en savoir plus, consultez Choisir une option de consommation.
  2. Obtenir de la capacité : le processus d'obtention de la capacité diffère pour chaque option de consommation. Pour en savoir plus sur la procédure à suivre pour obtenir de la capacité pour l'option de consommation choisie, consultez Présentation de la capacité.
  3. Vérifiez que vous disposez d'un quota de capacité Filestore suffisant : vous devez disposer d'un quota Filestore suffisant dans votre région cible avant de déployer. La capacité minimale requise dépend des types de machines de votre cluster :
    • A4X Max, A4X, A4, A3 Ultra et A3 Mega : nécessite une capacité HIGH_SCALE_SSD (zonale) minimale de 10 Tio (10 240 Gio).
    • A3 High : nécessite une capacité BASIC_SSD (standard) minimale de 2,5 Tio (2 560 Gio).

    Pour vérifier votre quota ou demander une augmentation, consultez les ressources suivantes :

  4. Vérifiez le règlement relatif aux images de confiance : si l'organisation dans laquelle se trouve votre projet possède un règlement relatif aux images de confiance (constraints/compute.trustedImageProjects), vérifiez que le projet clusterdirector-public-images figure dans la liste des projets autorisés. Pour en savoir plus, consultez Configurer des règlements relatifs aux images de confiance.

Rôles requis

Pour créer un cluster Slurm, vous devez disposer des rôles et autorisations IAM suivants :

Créer un cluster Slurm

Pour créer un cluster optimisé pour l'IA à l'aide de Cluster Director, procédez comme suit :

  1. Configurer les configurations de ressources de calcul

  2. Configurer le réseau

  3. Configurer les ressources de stockage

  4. Configurer l'environnement Slurm

Configurer les configurations de ressources de calcul

Pour configurer les configurations de ressources de calcul lors de la création d'un cluster, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page Cluster Director.

    Accéder à Cluster Director

  2. Cliquez sur Créer un cluster.

  3. Dans la boîte de dialogue qui s'affiche, cliquez sur Architecture de référence. La page Créer un cluster s'ouvre.

  4. Cliquez sur l'un des modèles disponibles. Vous pouvez éventuellement modifier le modèle pour l'adapter aux besoins de votre charge de travail.

  5. Cliquez sur Personnaliser.

  6. Dans la section Calcul, dans le champ Nom du cluster, saisissez le nom de votre cluster. Le nom peut contenir jusqu'à 10 caractères et ne peut utiliser que des chiffres ou des lettres minuscules (a-z).

  7. Pour ajouter des informations à la configuration de ressources de calcul préconfigurée ou modifier le nombre et le type d'instances de calcul spécifiés par les configurations, procédez comme suit :

    1. Dans la section Calcul, cliquez sur Modifier la configuration des ressources. Le volet Ajouter une configuration de ressources s'affiche.

    2. Facultatif : Pour modifier le nom de la configuration des ressources de calcul, saisissez un nouveau nom dans le champ Nom.

    3. Facultatif : Pour modifier le nombre et le type d'instances de calcul utilisées par votre cluster, suivez les instructions de la section Configuration de la machine pour mettre à jour les ressources de calcul.

    4. Dans la section Options de consommation, spécifiez l'option de consommation que vous souhaitez utiliser pour obtenir des ressources :

      • Pour créer des instances de calcul à l'aide d'une réservation, procédez comme suit :

        1. Cliquez sur l'onglet Utiliser une réservation.

        2. Cliquez sur Sélectionner une réservation. Le volet Choisir une réservation s'affiche. Si vous souhaitez utiliser une réservation de VM A4X, vous pouvez éventuellement choisir le bloc ou le sous-bloc pour contrôler l'emplacement de vos VM.

        3. Sélectionnez la réservation que vous souhaitez utiliser. Cliquez ensuite sur Choisir. Cette action définit automatiquement la région et la zone de vos ressources de calcul.

      • Pour créer des VM à démarrage flexible :

        1. Cliquez sur l'onglet Démarrage flexible.

        2. Dans la section Délai pour la VM, spécifiez la durée d'exécution des instances de calcul. Cette valeur doit être comprise entre 10 minutes et 7 jours.

        3. Dans la section Emplacement, sélectionnez la région dans laquelle vous souhaitez créer des VM à démarrage flexible. La consoleGoogle Cloud filtre automatiquement les régions disponibles pour n'afficher que celles qui sont compatibles avec les VM à démarrage flexible pour le type de machine sélectionné.

      • Pour créer des VM Spot :

        1. Cliquez sur l'onglet Utiliser un emplacement.

        2. Dans la liste À l'arrêt de la VM, sélectionnez l'une des options suivantes :

          • Pour supprimer les VM Spot lors de la préemption, sélectionnez Supprimer.

          • Pour arrêter les VM spot en cas de préemption, sélectionnez Arrêter.

        3. Dans la section Emplacement, sélectionnez la région et la zone dans lesquelles vous souhaitez créer des VM spot. La consoleGoogle Cloud filtre automatiquement les régions disponibles pour n'afficher que celles qui sont compatibles avec les VM Spot pour le type de machine sélectionné.

    5. Cliquez sur OK.

    6. Facultatif : Pour créer des configurations de ressources de calcul supplémentaires pour une partition, cliquez sur Ajouter une configuration de ressources, puis suivez les instructions pour spécifier les ressources de calcul.

  8. Cliquez sur Continuer.

Configurer le réseau

Pour configurer le réseau utilisé par votre cluster, procédez comme suit :

  1. Dans la section Choisir un réseau cloud privé virtuel (VPC), procédez comme suit :

    • Recommandation : Pour permettre à AI Hypercomputer de créer automatiquement un réseau VPC préconfiguré pour votre cluster, procédez comme suit :

      1. Sélectionnez Créer un réseau VPC.

      2. Dans le champ Nom du réseau, saisissez un nom pour le réseau VPC.

    • Pour utiliser un réseau VPC ou VPC partagé existant, procédez comme suit :

      1. Sélectionnez Utiliser un réseau VPC dans le projet actuel ou Utiliser un réseau VPC partagé hébergé dans un autre projet.

      2. Dans la liste Sélectionner un réseau VPC ou Réseau VPC partagé, sélectionnez un réseau VPC ou un réseau VPC partagé qui répond aux configurations requises.

      3. Dans la liste Sélectionner un sous-réseau, sélectionnez un sous-réseau existant.

  2. Cliquez sur Continuer.

Configurer les ressources de stockage

Pour configurer les ressources de stockage utilisées par votre cluster, procédez comme suit dans la section Stockage :

  1. Facultatif : Pour modifier une ressource de stockage, cliquez sur Modifier le forfait de stockage, puis suivez les instructions pour mettre à jour la configuration de la ressource de stockage.

  2. Facultatif : Pour ajouter des ressources de stockage à votre cluster, cliquez sur Ajouter une configuration de stockage, puis suivez les instructions pour spécifier la configuration des ressources de stockage.

  3. Cliquez sur Continuer.

Configurer l'environnement Slurm

Pour configurer l'environnement Slurm dans votre cluster, procédez comme suit :

  1. Facultatif : Pour modifier le nombre et le type d'instances de calcul utilisées par le nœud de connexion, développez la section Nœud de connexion, puis suivez les instructions pour mettre à jour les ressources de calcul.

  2. Facultatif : Pour modifier les partitions de votre cluster afin d'organiser vos ressources de calcul, développez la section Partitions, puis effectuez l'une des opérations suivantes :

    • Pour ajouter une partition, cliquez sur Ajouter une partition, puis procédez comme suit :

      1. Dans le champ Nom de la partition, saisissez un nom pour la partition.

      2. Pour modifier un ensemble de nœuds, cliquez sur Activer/Désactiver l'ensemble de nœuds. Sinon, pour ajouter un ensemble de nœuds, cliquez sur Ajouter un ensemble de nœuds.

      3. Dans le champ Nom du groupe de nœuds, saisissez le nom de votre groupe de nœuds.

      4. Dans le champ Configuration des ressources, sélectionnez une configuration de ressources de calcul que vous avez créée lors des étapes précédentes.

      5. Dans la liste Image source, sélectionnez l'une des images d'OS compatibles avec AI Hypercomputer.

      6. Dans le champ Nombre de nœuds statique, saisissez le nombre minimal d'instances de calcul qui doivent toujours être en cours d'exécution dans le cluster.

      7. Dans le champ Nombre de nœuds dynamique, saisissez le nombre maximal d'instances de calcul que AI Hypercomputer peut ajouter au cluster en cas d'augmentation du trafic.

      8. Dans la liste Type de disque de démarrage et le champ Taille du disque de démarrage, saisissez le type et la taille du disque de démarrage à utiliser pour les instances de calcul.

      9. Cliquez sur OK.

    • Pour supprimer une partition, cliquez sur Supprimer la partition.

  3. Facultatif : Pour ajouter des scripts de prologue ou d'épilogue à votre environnement Slurm, procédez comme suit :

    1. Développez la section Paramètres d'orchestration avancés.

    2. Dans la section Scripts, suivez les instructions pour ajouter des scripts.

  4. Cliquez sur Créer. La page Clusters s'affiche. La création du cluster peut prendre un certain temps. Le délai de traitement dépend du nombre d'instances de calcul que vous demandez et de la disponibilité des ressources dans la zone des instances de calcul. Si les ressources que vous avez demandées ne sont pas disponibles, AI Hypercomputer conserve la demande de création jusqu'à ce que les ressources deviennent disponibles. Pour afficher l'état de l'opération de création du cluster, affichez les détails de votre cluster.

Se connecter au cluster Slurm

Lorsque AI Hypercomputer crée votre nœud de connexion, l'état du cluster passe à Prêt. Vous pouvez ensuite vous connecter à votre cluster. Toutefois, vous ne pouvez exécuter des charges de travail qu'une fois qu'AI Hypercomputer a créé les nœuds de calcul dans le cluster.

Pour vous connecter au nœud de connexion d'un cluster via SSH à l'aide de la consoleGoogle Cloud , procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page Clusters.

    accéder aux clusters

  2. Dans le tableau Clusters, dans la colonne Name (Nom), cliquez sur le nom du cluster que vous avez créé dans la section précédente. Une page indiquant les détails du cluster s'affiche, et l'onglet Détails est sélectionné.

  3. Cliquez sur l'onglet Nœuds.

  4. Dans la section Nœuds de connexion, dans la colonne Se connecter, recherchez le nœud de connexion du cluster, dont le nom est CLUSTER_NAME-login-001.

  5. Dans la colonne Connecter du nœud de connexion, cliquez sur le bouton SSH. La fenêtre SSH dans le navigateur s'ouvre.

  6. Si vous y êtes invité, cliquez sur Autoriser. La connexion à votre nœud peut prendre jusqu'à une minute.

Vérifier l'état du cluster Slurm

Avant d'exécuter un job sur un nœud de calcul, Slurm exécute automatiquement un contrôle rapide de l'état du GPU sur le nœud. Si le nœud échoue à la vérification, Slurm le vide et empêche la planification de nouvelles tâches sur celui-ci.

Pour tester plus en détail l'état des GPU et la bande passante du réseau sur les nœuds de calcul d'une partition de cluster, vous pouvez exécuter manuellement des tests NVIDIA Collective Communications Library (NCCL). Si un test NCCL identifie des nœuds défaillants, vous pouvez les réparer ou modifier votre cluster. Les tests NCCL vous aident à vérifier l'état d'un cluster avant d'exécuter des charges de travail critiques. Pour en savoir plus, consultez Vérifier l'état du cluster.

Supprimer le cluster Slurm

Pour supprimer un cluster Slurm dans votre projet, sélectionnez l'une des options suivantes :

  1. Dans la console Google Cloud , accédez à la page Clusters.

    accéder aux clusters

  2. Dans le tableau Clusters, dans la colonne Nom, cliquez sur le nom du cluster que vous souhaitez supprimer. Une page indiquant les détails du cluster s'affiche, et l'onglet Détails est sélectionné.

  3. Cliquez sur  Supprimer.

  4. Dans la boîte de dialogue qui s'affiche, saisissez le nom de votre cluster, puis cliquez sur Supprimer pour confirmer. La page Clusters s'affiche. La suppression de votre cluster peut prendre un certain temps.

Étapes suivantes