Créer un cluster Slurm entièrement géré avec deux VM A4
Ce guide de démarrage rapide explique comment créer un cluster Slurm et s'y connecter à l'aide de Cluster Director. Le cluster que vous créez utilise deux instances de machines virtuelles (VM) A4, qui sont conçues pour aider votre cluster Slurm à gérer efficacement les charges de travail d'entraînement et d'inférence de modèles à grande échelle.
Cluster Director est un service géré qui simplifie et automatise le déploiement de clusters, ce qui réduit les coûts opérationnels et vous permet de vous concentrer sur l'exécution de votre charge de travail. Si vous souhaitez mieux contrôler le déploiement et la gestion de votre cluster, créez un cluster Slurm à l'aide de Cluster Toolkit.
Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud , cliquez sur Visite guidée :
Avant de commencer
- Connectez-vous à votre compte Google Cloud . Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits sans frais pour exécuter, tester et déployer des charges de travail.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Activez les API Hypercompute Cluster, API Compute Engine, API Filestore, Google Cloud Managed Lustre, API Cloud Logging et API Cloud Monitoring :
Activer les API- Vérifiez que votre projet et le compte de service Compute Engine par défaut disposent des rôles IAM (Identity and Access Management) suivants :
-
Pour obtenir les autorisations nécessaires pour suivre ce guide de démarrage rapide, demandez à votre administrateur de vous accorder les rôles IAM suivants sur votre projet :
-
Pour créer et gérer un cluster :
Éditeur Cluster Director (
roles/hypercomputecluster.editor) -
Pour créer et gérer des VM dans un cluster : Administrateur d'instances Compute (v1) (
roles/compute.instanceAdmin.v1) -
Pour vous connecter au nœud de connexion d'un cluster :
- Connexion au système d'exploitation Compute (
roles/compute.osLogin) - Utilisateur de tunnels sécurisés par IAP (
roles/iap.tunnelResourceAccessor)
- Connexion au système d'exploitation Compute (
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.
-
Pour créer et gérer un cluster :
Éditeur Cluster Director (
-
Pour obtenir les autorisations nécessaires pour suivre ce guide de démarrage rapide, demandez à votre administrateur de vous accorder les rôles IAM suivants sur le compte de service Compute Engine par défaut :
-
Pour créer un cluster :
Utilisateur du compte de service (
roles/iam.serviceAccountUser) -
Pour gérer les ressources d'un cluster :
- Rédacteur de journaux (
roles/logging.logWriter) - Rédacteur de métriques Monitoring (
roles/monitoring.metricWriter) - Lecteur des objets Storage (
roles/storage.objectViewer)
- Rédacteur de journaux (
-
Pour créer un cluster :
Utilisateur du compte de service (
-
- Si l'organisation dans laquelle se trouve votre projet possède un règlement relatif aux images de confiance (
constraints/compute.trustedImageProjects), vérifiez que le projetclusterdirector-public-imagesfigure dans la liste des projets autorisés. Pour afficher les règlements relatifs aux images de confiance de votre organisation, consultez Définir des contraintes d'accès aux images.
Coûts
Ce guide de démarrage rapide utilise les ressources facturables suivantes : Google Cloud
Compute Engine :
Deux VM avec des types de machines A4
Un volume Persistent Disk de 100 Go pour le nœud de connexion Slurm
Un volume Google Cloud Hyperdisk Balanced de 100 Go pour les VM A4
Filestore : instance Filestore de 10 Tio (10 240 Gio)
Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût.
Créer un cluster Slurm
Pour créer un cluster Slurm, procédez comme suit :
Dans la console Google Cloud , accédez à la page Cluster Director.
Cliquez sur Créer un cluster.
Dans la boîte de dialogue qui s'affiche, cliquez sur Configuration détaillée. La page Créer un cluster s'affiche.
Dans le champ Nom du cluster, saisissez
cluster001.Dans la section Calcul, cliquez sur Configurer les ressources. Dans le volet Ajouter une configuration de ressources qui s'affiche, procédez comme suit :
Dans la liste Type de GPU, sélectionnez NVIDIA B200 180 Go.
Dans le champ Nombre d'instances, saisissez
2.Dans la section Options de consommation, sélectionnez l'option de consommation que vous souhaitez utiliser pour obtenir des ressources.
Dans la section Emplacement, spécifiez la région et la zone dans lesquelles vous souhaitez créer vos VM A4, ou dans lesquelles se trouve la réservation que vous souhaitez utiliser pour créer vos VM.
Cliquez sur OK.
Dans le menu de navigation, cliquez sur Stockage.
Dans la section Stockage, cliquez sur Modifier la configuration du stockage. Dans le volet Ajouter une configuration de stockage qui s'affiche, procédez comme suit :
Dans la section Capacité, sélectionnez 10 à 100 Tio, par incréments de 2,5 Tio.
Cliquez sur OK.
Cliquez sur Créer. La page Clusters s'affiche.
La création du cluster peut prendre un certain temps. Le délai de traitement dépend du nombre de VM que vous demandez et de la disponibilité des ressources dans la zone des VM. Si les ressources que vous avez demandées ne sont pas disponibles, Cluster Director conserve la demande de création jusqu'à ce que les ressources deviennent disponibles.
Afficher la demande de création de cluster
Pour examiner la demande de création de cluster, procédez comme suit :
Dans le tableau Clusters, dans la colonne Nom, cliquez sur cluster001. Une page indiquant les détails du cluster s'affiche, et l'onglet Détails est sélectionné.
Dans la section Calcul, recherchez la ligne État. Lorsque AI Hypercomputer définit sa valeur sur Prêt, vous pouvez passer à la section suivante.
Se connecter au cluster via SSH
Pour vous connecter à votre cluster via SSH, procédez comme suit :
Cliquez sur l'onglet Nœuds.
Dans la table Nœuds de connexion, recherchez la ligne contenant le nœud cluster001-login-001. Sur cette ligne, dans la colonne Connecter, cliquez sur le bouton SSH. La fenêtre SSH dans votre navigateur s'affiche.
Si vous y êtes invité, cliquez sur Autoriser. La connexion à votre cluster peut prendre un certain temps. Lorsque le terminal est prêt, passez à la section suivante.
Exécuter des exemples de jobs
Dans la fenêtre SSH dans votre navigateur, procédez comme suit :
Pour vérifier que Slurm est en cours d'exécution, exécutez la commande suivante :
sinfoPour envoyer un job de test qui renvoie le nom d'hôte du nœud, exécutez la commande suivante :
srun hostnamePour envoyer un job par lot qui se met en veille pendant 30 secondes, exécutez la commande suivante :
sbatch --wrap="sleep 30"Pour vérifier l'état des jobs dans la file d'attente, exécutez la commande suivante :
squeuePour afficher les données de traçabilité des jobs, exécutez la commande suivante :
sacct
Vous avez créé un cluster Slurm, vous vous y êtes connecté et vous avez exécuté des exemples de jobs. Si AI Hypercomputer n'a toujours pas créé les VM A4, vous pouvez attendre que le cluster les crée, modifier le cluster pour ajouter ou supprimer des VM, ou supprimer le cluster pour éviter d'engendrer des frais inutiles.
Effectuer un nettoyage
Pour éviter que les ressources utilisées dans cette démonstration soient facturées sur votre compte Google Cloud , procédez comme suit :
Supprimer votre projet
Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.
Pour supprimer le projet :
- Dans la console Google Cloud , accédez à la page Gérer les ressources.
- Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
- Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.
Supprimer votre cluster
Pour supprimer le cluster et les ressources associées que vous avez créés dans ce guide de démarrage rapide, procédez comme suit :
Sur la page contenant les détails de votre cluster, cliquez sur Supprimer.
Dans la boîte de dialogue qui s'affiche, saisissez
cluster001, puis cliquez sur Supprimer pour confirmer.