Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Présentation des clusters HPC avec des fonctionnalités de gestion de cluster améliorées

Pour créer l'infrastructure d'applications étroitement couplées qui évoluent sur plusieurs nœuds, vous pouvez créer un cluster d'instances de machines virtuelles (VM). Ce guide fournit un aperçu général des principales considérations et étapes à suivre pour configurer un cluster d'instances de machines virtuelles (VM) pour les charges de travail de calcul hautes performances (HPC) à l'aide d'une allocation de ressources dense.

Avec H4D, Compute Engine permet d'exécuter des charges de travail HPC massives en traitant un cluster entier d'instances de VM comme un seul ordinateur. L'emplacement des VM tenant compte de la topologie vous permet d'accéder à de nombreuses instances dans un seul superbloc réseau et de minimiser la latence du réseau. Vous pouvez également configurer Cloud RDMA sur ces instances pour maximiser les performances de communication entre les nœuds, ce qui est essentiel pour les charges de travail HPC à couplage fort.

Vous créez ces clusters de VM HPC avec H4D en réservant des blocs de capacité plutôt que des ressources individuelles. L'utilisation de blocs de capacité pour votre cluster permet de bénéficier de fonctionnalités de gestion de cluster améliorées.

Vous pouvez créer des clusters HPC avec des instances H4D avec ou sans fonctionnalités de gestion de cluster améliorées. Si vous n'avez pas besoin de fonctionnalités de gestion de cluster améliorées avec votre cluster HPC H4D, ou si vous souhaitez créer des clusters HPC à l'aide d'une série de machines autre que H4D, suivez les instructions ci-dessous pour créer des instances ou des clusters HPC :

Terminologie des clusters

Lorsque vous travaillez avec des blocs de capacité, les termes suivants sont utilisés :

Bloquer

Ensemble de sous-blocs interconnectés avec une structure non bloquante, ce qui offre une interconnexion à haut débit entre tous les hôtes du cluster.

Cluster

Ensemble de blocs interconnectés par un maillage réseau à haut débit. Un cluster peut évoluer jusqu'à des milliers de processeurs pour exécuter des charges de travail HPC à grande échelle. Chaque cluster est unique au niveau mondial. La communication entre les différents blocs n'ajoute qu'un seul saut supplémentaire, ce qui maintient la prévisibilité et les performances élevées, même à grande échelle. Les métadonnées au niveau du cluster sont également disponibles pour les orchestrateurs, ce qui permet un placement intelligent des jobs à grande échelle.

Cluster Toolkit

Outil Open Source proposé par Google qui simplifie la configuration et le déploiement des clusters utilisant Slurm ou Google Kubernetes Engine. Vous utilisez des plans prédéfinis pour créer un dossier de déploiement basé sur le plan. Vous pouvez modifier les plans ou le dossier de déploiement pour personnaliser les déploiements et votre pile logicielle. Vous utilisez ensuite Terraform ou Packer pour exécuter les commandes générées par Cluster Toolkit afin de déployer le cluster.

Déploiement dense

Une demande de ressources qui alloue les ressources de votre instance de calcul à proximité physique les unes des autres pour minimiser les sauts de réseau et optimiser les instances pour les latences les plus faibles.

Maillage réseau

Un réseau fournit une connectivité à haut débit et à faible latence entre tous les blocs et services Google Cloud d'un cluster. Jupiter est l'architecture de réseau de centre de données de Google qui utilise la mise en réseau définie par logiciel et les commutateurs de circuits optiques pour faire évoluer le réseau et optimiser ses performances.

Nœud ou hôte

Une seule machine serveur physique dans le centre de données. Chaque hôte est associé à des ressources de calcul telles que des processeurs, de la mémoire et des interfaces réseau. Le nombre et la configuration de ces ressources de calcul dépendent du type de machine. Les instances de calcul sont provisionnées sur un hôte physique.

Orchestrator

Un orchestrateur automatise la gestion de vos clusters. Avec un orchestrateur, vous n'avez pas besoin de gérer chaque instance de VM dans le cluster. Un orchestrateur, tel que Slurm ou Google Kubernetes Engine (GKE), gère des tâches telles que la mise en file d'attente des jobs, l'allocation des ressources, l'autoscaling (avec GKE) et d'autres tâches quotidiennes de gestion des clusters.

Sous-blocs

Groupe d'hôtes et de matériel de connectivité associé situés sur une même baie physique. Un commutateur de haut de rack (ToR, top-of-rack) connecte ces hôtes, ce qui permet une communication extrêmement efficace à saut unique entre deux processeurs quelconques du sous-bloc. Cloud RDMA facilite cette communication directe.

Présentation du processus de création de cluster avec des VM H4D

Pour créer des clusters HPC sur des blocs de capacité réservés, vous devez procéder comme suit :

Examiner les modèles de provisionnement disponibles
Choisir une option de consommation et obtenir de la capacité
Choisir une option de déploiement et un orchestrateur
Choisir l'image du système d'exploitation ou du cluster
Créer votre cluster

Modèles de provisionnement pour la création de VM et de clusters

Lorsque vous créez des instances de VM, vous pouvez utiliser les modèles de provisionnement décrits dans Modèles de provisionnement des instances Compute Engine.

Pour créer des instances H4D étroitement couplées, vous devez utiliser l'un des modèles de provisionnement suivants pour obtenir les ressources nécessaires à la création d'instances de calcul :

Lié à une réservation : vous pouvez réserver des ressources à prix réduit pour une date et une durée futures. Au début de la période de réservation, vous pouvez utiliser les ressources réservées pour créer des VM ou des clusters. Vous bénéficiez d'un accès exclusif aux ressources réservées pendant toute la période de réservation.
Démarrage flexible : vous pouvez demander des ressources à prix réduit pour une durée maximale de sept jours. Compute Engine s'efforce de planifier le provisionnement des ressources demandées dès qu'elles sont disponibles. Vous bénéficiez d'un accès exclusif aux ressources obtenues pendant la période demandée.
Spot : en fonction de la disponibilité, vous pouvez obtenir immédiatement des ressources à prix fortement réduit. Toutefois, Compute Engine peut arrêter ou supprimer les instances de VM à tout moment pour récupérer de la capacité.

Modèle de provisionnement lié à une réservation

Le modèle de provisionnement lié à la réservation associe les instances de VM que vous avez créées à la capacité que vous avez réservée précédemment. Lorsque vous réservez de la capacité, Compute Engine crée une réservation vide. Ensuite, à l'heure de début de la réservation, voici ce qui se produit :

Compute Engine ajoute vos ressources réservées à la réservation. Vous bénéficiez d'un accès exclusif à la capacité réservée jusqu'à la fin de la période de réservation.
Google Cloud vous facture la capacité réservée jusqu'à la fin de votre période de réservation, que vous utilisiez ou non la capacité.

Vous pouvez ensuite utiliser les ressources réservées pour créer des VM sans frais supplémentaires. Vous ne payez que les ressources qui ne sont pas incluses dans la réservation, comme les disques ou les adresses IP.

Vous pouvez réserver des ressources pour autant de VM que vous le souhaitez, pour la durée de votre choix et pour une date ultérieure. Vous pouvez ensuite utiliser les ressources réservées pour créer et exécuter des VM jusqu'à la fin de la période de réservation. Si vous réservez des ressources pendant au moins un an, vous devez souscrire un engagement basé sur les ressources et l'associer à vos ressources réservées.

Pour provisionner des ressources à l'aide du modèle de provisionnement lié à la réservation, consultez les pages suivantes :

Pour les charges de travail distribuées de longue durée et à grande échelle avec des ressources à allocation dense : Réservez de la capacité auprès de votre équipe chargée du compte.
Pour les charges de travail distribuées de courte durée (jusqu'à 90 jours) avec des ressources allouées de manière dense : Demandes de réservations futures en mode Agenda

Vous pouvez utiliser le provisionnement lié à une réservation avec des instances H4D en spécifiant le modèle de provisionnement lié à une réservation lorsque vous créez des VM individuelles, un cluster HPC ou un groupe de VM.

Modèle de provisionnement Démarrage flexible

Pour exécuter des charges de travail de courte durée qui nécessitent des ressources allouées de manière dense, vous pouvez demander des ressources de calcul pendant sept jours maximum à l'aide du démarrage flexible. Chaque fois que des ressources sont disponibles, Compute Engine crée le nombre de VM demandé. Vous pouvez arrêter les VM à démarrage flexible autonomes, mais pas celles qu'un groupe d'instances géré (MIG) crée à l'aide de requêtes de redimensionnement. Les VM à démarrage flexible existent jusqu'à ce que vous les supprimiez ou jusqu'à ce que Compute Engine les supprime à la fin de leur durée d'exécution.

Le démarrage flexible est idéal pour les charges de travail qui peuvent démarrer à tout moment. Le modèle de provisionnement à démarrage flexible provisionne les ressources à partir d'un pool de capacité sécurisé. Les ressources allouées sont donc allouées de manière dense pour minimiser la latence du réseau.

Lorsque vous ajoutez des VM à démarrage flexible à un groupe d'instances géré (MIG) à l'aide de requêtes de redimensionnement, le MIG crée les VM simultanément. Cette approche vous permet d'éviter des frais inutiles liés à la capacité partielle que Compute Engine peut fournir en attendant que la capacité totale nécessaire au démarrage de votre charge de travail soit disponible.

Vous pouvez utiliser le provisionnement Démarrage flexible avec les instances H4D, en utilisant n'importe quel modèle de déploiement disponible.

Modèle de provisionnement Spot

Pour exécuter des charges de travail tolérantes aux pannes, vous pouvez obtenir des ressources de calcul immédiatement en fonction de leur disponibilité. Vous obtenez des ressources au prix le plus bas possible. Toutefois, Compute Engine peut arrêter ou supprimer les VM Spot créées à tout moment pour récupérer de la capacité. Ce processus est appelé préemption.

Les VM Spot sont idéales pour les charges de travail où les interruptions sont acceptables, par exemple :

Traitement par lot
Calcul hautes performances (HPC)
Analyse de données
Intégration continue et déploiement continu (CI/CD)
Encodage multimédia

Vous pouvez utiliser des VM Spot avec n'importe quel type de machine, à l'exception des types de machines A4X, X4 et Bare Metal. L'allocation dense dépend de la disponibilité des ressources. Pour vous assurer d'une allocation plus proche, vous pouvez appliquer une stratégie d'emplacement compact aux VM Spot.

Vous pouvez utiliser des Spot VM avec les options de déploiement dense suivantes :

Choisir une option de consommation et obtenir de la capacité

Les options de consommation déterminent la manière dont les ressources sont obtenues pour votre cluster. Pour créer un cluster qui utilise des fonctionnalités de gestion de cluster améliorées, vous devez demander des blocs de capacité pour un déploiement dense.

Le tableau suivant récapitule les principales différences entre les options de consommation pour les blocs de capacité :

Option d'utilisation	Réservations futures pour les blocs de capacité	Réservations futures jusqu'à 90 jours (en mode Agenda)	Démarrage flexible	Spot
Caractéristiques de la charge de travail	Charges de travail distribuées de longue durée et à grande échelle nécessitant des ressources à allocation dense	Charges de travail de courte durée nécessitant des ressources à allocation dense	Charges de travail de courte durée nécessitant des ressources à allocation dense	Charges de travail tolérantes aux pannes
Durée de vie	N'importe quand	Jusqu'à 90 jours	Jusqu'à 7 jours	À tout moment, mais sous réserve d'préemption
Préemptif	Non	Non	Non	Oui
Garantie de capacité	Très élevée	Très élevée	Optimisation limitée	Optimisation limitée
Quota	Vérifiez que vous disposez d'un quota suffisant avant de créer des instances.	Le quota de processeurs est consommé.	Le quota préemptif est utilisé.	Le quota préemptif est utilisé.
Tarifs	Consultez les tarifs des VM. Si vous réservez des ressources pendant au moins un an, vous devez souscrire un engagement basé sur les ressources et l'associer à vos ressources réservées. La période de réservation vous est facturée. Consultez la section Facturation des réservations.	Prix réduit (jusqu'à 25%). Consultez les tarifs du planificateur de charges de travail dynamique. La période de réservation vous est facturée. Consultez la section Facturation des réservations.	Prix réduit (jusqu'à 25%). Consultez les tarifs du planificateur de charges de travail dynamique. Vous payez à l'usage.	Profitez de remises exceptionnelles (jusqu'à 60%). Consultez les tarifs des VM Spot et les tarifs des VM optimisées pour le calcul. Vous payez à l'usage.
Allocation des ressources	Dense	Dense	Dense	Standard (stratégie d'emplacement compacte facultative)
Modèle de provisionnement	Lié à la réservation	Lié à la réservation	Démarrage flexible	Spot
Méthode de création	Pour créer des clusters et des VM HPC, vous devez effectuer les opérations suivantes : Réserver de la capacité auprès de l'équipe chargée de votre compte À la date et à l'heure de votre choix, vous pouvez utiliser la capacité réservée pour créer des clusters HPC. Consultez Choisir une option de déploiement.	Pour créer des clusters et des VM HPC, vous devez effectuer les opérations suivantes : Créer une demande de réservation future en mode Agenda À la date et à l'heure de votre choix, vous pouvez utiliser la capacité réservée pour créer des clusters HPC. Consultez Choisir une option de déploiement.	Pour créer des VM, sélectionnez l'une des options suivantes : Créez des VM à démarrage flexible autonomes. Créez des VM à démarrage flexible en même temps à l'aide des demandes de redimensionnement de MIG. Utilisez GKE pour exécuter des charges de travail de calcul hautes performances (HPC) avec H4D. Lorsque la capacité demandée devient disponible, Compute Engine la provisionne.	Vous pouvez créer des VM immédiatement. Consultez Choisir une option de déploiement.

Choisir une option de déploiement

Les charges de travail de calcul hautes performances (HPC) agrègent des ressources de calcul afin d'obtenir des performances supérieures à celles d'une station de travail, d'un serveur ou d'un ordinateur unique. Le HPC permet de résoudre des problèmes dans les domaines de la recherche universitaire, de la science, de la conception, de la simulation et de l'informatique décisionnelle.

Pour les clusters HPC avec des fonctionnalités de gestion de cluster améliorées, choisissez la série de machines H4D. Si vous prévoyez d'utiliser une autre série de machines, suivez la documentation Créer une instance de VM compatible avec le HPC au lieu d'utiliser les méthodes de déploiement listées sur cette page.

Parmi les options de déploiement disponibles, on trouve l'installation et la configuration d'un orchestrateur pour une gestion améliorée du cluster HPC.

Pour choisir l'option la plus appropriée pour créer vos VM ou clusters pour votre cas d'utilisation, sélectionnez l'une des options suivantes :

Option	Cas d'utilisation
Cluster Toolkit	Vous souhaitez utiliser un logiciel Open Source qui simplifie le processus de déploiement des clusters Slurm et Google Kubernetes Engine (GKE). Cluster Toolkit est conçu pour être hautement personnalisable et extensible. Pour en savoir plus, consultez la ressource suivante : Créer un cluster Slurm H4D avec des fonctionnalités de gestion de cluster améliorées Guide de démarrage rapide : créer un cluster HPC Slurm compatible avec Cloud RDMA
GKE	Vous souhaitez une flexibilité maximale pour configurer votre cluster Google Kubernetes Engine en fonction des besoins de votre charge de travail. Pour en savoir plus, consultez Exécuter des charges de travail HPC avec H4D.
Utiliser Compute Engine	Vous souhaitez contrôler entièrement la couche d'infrastructure pour pouvoir configurer votre propre orchestrateur. Pour en savoir plus, consultez la ressource suivante : Créer une instance optimisée pour le HPC (déploiements non denses) Créer une instance de VM compatible avec le HPC Créer une instance qui utilise Cloud RDMA Créer des instances H4D de manière groupée Créer un groupe d'instances géré (MIG) avec des instances H4D Créer un MIG HPC avec la série de machines H4D Démarrage rapide : créer un MIG avec des types de machines H4D et un démarrage flexible Démarrage rapide : créer un MIG pour les charges de travail HPC avec une consommation liée à une réservation

Option

Cas d'utilisation

Cluster Toolkit

Vous souhaitez utiliser un logiciel Open Source qui simplifie le processus de déploiement des clusters Slurm et Google Kubernetes Engine (GKE). Cluster Toolkit est conçu pour être hautement personnalisable et extensible. Pour en savoir plus, consultez la ressource suivante :

GKE

Vous souhaitez une flexibilité maximale pour configurer votre cluster Google Kubernetes Engine en fonction des besoins de votre charge de travail. Pour en savoir plus, consultez Exécuter des charges de travail HPC avec H4D.

Utiliser Compute Engine

Vous souhaitez contrôler entièrement la couche d'infrastructure pour pouvoir configurer votre propre orchestrateur. Pour en savoir plus, consultez la ressource suivante :

Créer une instance optimisée pour le HPC (déploiements non denses)
- Créer une instance de VM compatible avec le HPC
- Créer une instance qui utilise Cloud RDMA
Créer des instances H4D de manière groupée
Créer un groupe d'instances géré (MIG) avec des instances H4D

Choisir l'image système

L'image du système d'exploitation (OS) que vous choisissez dépend du service que vous utilisez pour déployer votre cluster.

Pour les clusters sur GKE : utilisez une image de nœud GKE, telle que Container-Optimized OS. Si vous utilisez Cluster Toolkit pour déployer votre cluster GKE, une image Container-Optimized OS est utilisée par défaut. Pour en savoir plus sur les images de nœuds, consultez Images de nœuds dans la documentation GKE.
Pour les clusters sur Compute Engine : vous pouvez utiliser l'une des images suivantes :
- Image de VM HPC : image Rocky Linux 8 optimisée pour les charges de travail HPC à couplage fort.
- Image d'OS fournie par Google Cloud : images d'OS compatibles avec H4D. Vous devrez les configurer pour vos charges de travail HPC.
- Images personnalisées : vous pouvez créer et utiliser vos propres images personnalisées. Pour inclure des optimisations spécifiques au HPC, nous vous recommandons de créer une image personnalisée à l'aide de l'image de VM HPC.
Pour les clusters Slurm : Cluster Toolkit déploie le cluster Slurm avec une image de VM HPC basée sur Rocky Linux 8, optimisée pour les charges de travail HPC à couplage fort.

Créer votre cluster HPC

Après avoir examiné le processus de création de cluster et pris des décisions préliminaires pour votre charge de travail, créez votre cluster à l'aide de l'une des options de déploiement.

Fonctionnalités de gestion de cluster améliorées pour votre cluster HPC

Lorsque vous créez des instances H4D avec des ressources allouées de manière dense à l'aide des méthodes de déploiement mentionnées dans Choisir une option de déploiement, vous pouvez utiliser des fonctionnalités de gestion de cluster HPC améliorées avec vos instances.

Pour en savoir plus sur ces fonctionnalités, consultez Gestion améliorée des clusters HPC avec les instances H4D.

Étapes suivantes

En savoir plus sur Cluster Toolkit
Suivez le tutoriel de démarrage rapide Déployer un cluster HPC avec Slurm.
Consultez les bonnes pratiques pour exécuter des charges de travail HPC.