Créer un cluster Slurm entièrement géré avec deux VM A4

Ce guide de démarrage rapide explique comment créer un cluster Slurm et s'y connecter à l'aide de Cluster Director. Le cluster que vous créez utilise deux instances de machines virtuelles (VM) A4, qui sont conçues pour aider votre cluster Slurm à gérer efficacement les charges de travail d'entraînement et d'inférence de modèles à grande échelle.

Cluster Director est un service géré qui simplifie et automatise le déploiement de clusters, ce qui réduit les coûts opérationnels et vous permet de vous concentrer sur l'exécution de votre charge de travail. Si vous souhaitez mieux contrôler le déploiement et la gestion de votre cluster, créez un cluster Slurm à l'aide de Cluster Toolkit.


Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud , cliquez sur Visite guidée :

Visite guidée


Avant de commencer

  1. Connectez-vous à votre compte Google Cloud . Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits sans frais pour exécuter, tester et déployer des charges de travail.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Activez les API Hypercompute Cluster, API Compute Engine, API Filestore, Google Cloud Managed Lustre, API Cloud Logging et API Cloud Monitoring :

    Activer les API
  7. Vérifiez que votre projet et le compte de service Compute Engine par défaut disposent des rôles IAM (Identity and Access Management) suivants :
  8. Si l'organisation dans laquelle se trouve votre projet possède un règlement relatif aux images de confiance (constraints/compute.trustedImageProjects), vérifiez que le projet clusterdirector-public-images figure dans la liste des projets autorisés. Pour afficher les règlements relatifs aux images de confiance de votre organisation, consultez Définir des contraintes d'accès aux images.

Coûts

Ce guide de démarrage rapide utilise les ressources facturables suivantes : Google Cloud

  • Compute Engine :

    • Deux VM avec des types de machines A4

    • Un volume Persistent Disk de 100 Go pour le nœud de connexion Slurm

    • Un volume Google Cloud Hyperdisk Balanced de 100 Go pour les VM A4

  • Filestore : instance Filestore de 10 Tio (10 240 Gio)

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût.

Créer un cluster Slurm

Pour créer un cluster Slurm, procédez comme suit :

  1. Dans la console Google Cloud , accédez à la page Cluster Director.

    Accéder à Cluster Director

  2. Cliquez sur Créer un cluster.

  3. Dans la boîte de dialogue qui s'affiche, cliquez sur Configuration détaillée. La page Créer un cluster s'affiche.

  4. Dans le champ Nom du cluster, saisissez cluster001.

  5. Dans la section Calcul, cliquez sur Configurer les ressources. Dans le volet Ajouter une configuration de ressources qui s'affiche, procédez comme suit :

    1. Dans la liste Type de GPU, sélectionnez NVIDIA B200 180 Go.

    2. Dans le champ Nombre d'instances, saisissez 2.

    3. Dans la section Options de consommation, sélectionnez l'option de consommation que vous souhaitez utiliser pour obtenir des ressources.

    4. Dans la section Emplacement, spécifiez la région et la zone dans lesquelles vous souhaitez créer vos VM A4, ou dans lesquelles se trouve la réservation que vous souhaitez utiliser pour créer vos VM.

    5. Cliquez sur OK.

  6. Dans le menu de navigation, cliquez sur Stockage.

  7. Dans la section Stockage, cliquez sur Modifier la configuration du stockage. Dans le volet Ajouter une configuration de stockage qui s'affiche, procédez comme suit :

    1. Dans la section Capacité, sélectionnez 10 à 100 Tio, par incréments de 2,5 Tio.

    2. Cliquez sur OK.

  8. Cliquez sur Créer. La page Clusters s'affiche.

    La création du cluster peut prendre un certain temps. Le délai de traitement dépend du nombre de VM que vous demandez et de la disponibilité des ressources dans la zone des VM. Si les ressources que vous avez demandées ne sont pas disponibles, Cluster Director conserve la demande de création jusqu'à ce que les ressources deviennent disponibles.

Afficher la demande de création de cluster

Pour examiner la demande de création de cluster, procédez comme suit :

  1. Dans le tableau Clusters, dans la colonne Nom, cliquez sur cluster001. Une page indiquant les détails du cluster s'affiche, et l'onglet Détails est sélectionné.

  2. Dans la section Calcul, recherchez la ligne État. Lorsque AI Hypercomputer définit sa valeur sur Prêt, vous pouvez passer à la section suivante.

Se connecter au cluster via SSH

Pour vous connecter à votre cluster via SSH, procédez comme suit :

  1. Cliquez sur l'onglet Nœuds.

  2. Dans la table Nœuds de connexion, recherchez la ligne contenant le nœud cluster001-login-001. Sur cette ligne, dans la colonne Connecter, cliquez sur le bouton SSH. La fenêtre SSH dans votre navigateur s'affiche.

  3. Si vous y êtes invité, cliquez sur Autoriser. La connexion à votre cluster peut prendre un certain temps. Lorsque le terminal est prêt, passez à la section suivante.

Exécuter des exemples de jobs

Dans la fenêtre SSH dans votre navigateur, procédez comme suit :

  1. Pour vérifier que Slurm est en cours d'exécution, exécutez la commande suivante :

    sinfo
    
  2. Pour envoyer un job de test qui renvoie le nom d'hôte du nœud, exécutez la commande suivante :

    srun hostname
    
  3. Pour envoyer un job par lot qui se met en veille pendant 30 secondes, exécutez la commande suivante :

    sbatch --wrap="sleep 30"
    
  4. Pour vérifier l'état des jobs dans la file d'attente, exécutez la commande suivante :

    squeue
    
  5. Pour afficher les données de traçabilité des jobs, exécutez la commande suivante :

    sacct
    

Vous avez créé un cluster Slurm, vous vous y êtes connecté et vous avez exécuté des exemples de jobs. Si AI Hypercomputer n'a toujours pas créé les VM A4, vous pouvez attendre que le cluster les crée, modifier le cluster pour ajouter ou supprimer des VM, ou supprimer le cluster pour éviter d'engendrer des frais inutiles.

Effectuer un nettoyage

Pour éviter que les ressources utilisées dans cette démonstration soient facturées sur votre compte Google Cloud , procédez comme suit :

Supprimer votre projet

Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

Pour supprimer le projet :

  1. Dans la console Google Cloud , accédez à la page Gérer les ressources.

    Accéder à la page "Gérer les ressources"

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Supprimer votre cluster

Pour supprimer le cluster et les ressources associées que vous avez créés dans ce guide de démarrage rapide, procédez comme suit :

  1. Sur la page contenant les détails de votre cluster, cliquez sur Supprimer.

  2. Dans la boîte de dialogue qui s'affiche, saisissez cluster001, puis cliquez sur Supprimer pour confirmer.

Étapes suivantes