Les fonctionnalités de gestion de cluster HPC améliorées vous permettent d'exécuter des clusters HPC à grande échelle et à déploiement dense. Elles offrent les fonctionnalités de gestion de cluster suivantes :
- Colocation des ressources de cluster HPC
- Placement tenant compte de la topologie du cluster
- Mode de fonctionnement du cluster
- Planification et contrôles de la maintenance des clusters
- Outils de surveillance et de diagnostic des clusters
Colocation des ressources d'infrastructure HPC
Lorsque vous utilisez les instances H4D avec des fonctionnalités de gestion améliorées, vous pouvez demander à Compute Engine de provisionner vos instances aussi près que possible les unes des autres. Ces machines offrent les fonctionnalités suivantes :
Compute Engine provisionne les machines sous forme de blocs de ressources.
Évolutivité améliorée des charges de travail grâce à une mise en réseau Cloud RDMA à 200 Gbit/s.
Cette organisation des ressources minimise les sauts de réseau et optimise la latence réseau la plus faible. Pour savoir comment obtenir la capacité nécessaire au déploiement de blocs de machines à allocation dense, consultez Créer un cluster HPC avec des fonctionnalités de gestion améliorées.
Placement tenant compte de la topologie du cluster
Une fois que vous avez créé des VM ou des clusters de VM H4D, vous pouvez obtenir des informations sur la topologie au niveau des nœuds et des clusters. Ces informations vous aident à effectuer les opérations suivantes :
Ajustez la conception de votre application ou de votre charge de travail pour réduire davantage la latence du réseau.
Comprendre et résoudre les problèmes de latence et de performances réseau pour les VM qui communiquent fréquemment entre elles. Ces problèmes peuvent survenir si les VM sont situées de manière inattendue à une grande distance les unes des autres.
Pour en savoir plus, consultez Afficher la topologie des VM.
Maintenance et récupération gérées de vos VM H4D
Lorsque vous réservez de la capacité pour créer des VM ou des clusters H4D, Google Cloudgère automatiquement le processus de maintenance et de récupération de vos VM après des erreurs d'hôte ou des rapports d'hôte défectueux. Cette approche, appelée mode géré, est idéale lorsque votre charge de travail nécessite une grande stabilité et un processus automatisé pour minimiser les temps d'arrêt.
Le mode géré présente les caractéristiques suivantes :
N'utiliser la capacité réservée que pour la récupération : Compute Engine n'utilise votre capacité réservée que pour redémarrer les VM. S'il n'y a pas de capacité disponible dans vos réservations, Compute Engine ne redémarre les VM qu'une fois que vous avez obtenu plus de capacité.
Redémarrages automatiques des VM : Google Cloud gère l'ensemble du processus de récupération d'une VM. Lorsque la maintenance de l'hôte est requise, Compute Engine migre automatiquement vos VM vers d'autres machines disponibles dans votre réservation et les redémarre.
Gestion et visibilité des blocs : vous pouvez afficher la topologie, l'état et l'état de maintenance des réservations et des blocs de réservations individuels. Vous pouvez également recevoir des notifications de maintenance et, si vous le souhaitez, commencer la maintenance avant l'heure prévue pour ces ressources.
Limites de débit potentielles de l'API : les appels à l'API report faulty host peuvent être soumis à une limite de débit par réservation.
Planification et contrôles de la maintenance des clusters
Vous contrôlez la maintenance des instances H4D à l'aide de la planification tenant compte de la topologie dans un bloc de ressources. Cette fonctionnalité permet de synchroniser les mises à niveau afin que vos charges de travail soient plus résilientes aux événements hôtes et que les perturbations soient minimisées.
Pour faciliter le contrôle total des événements de maintenance, vous pouvez utiliser les fonctionnalités suivantes :
Type de planification de la maintenance
Lorsque vous réservez de la capacité pour créer des VM ou des clusters d'instances de VM H4D, vous pouvez définir la façon dont Compute Engine gère l'infrastructure sur laquelle vos VM s'exécutent. Vous pouvez spécifier si les VM doivent être regroupées et bénéficier d'une planification de la maintenance synchronisée (groupée), ou si elles peuvent être faiblement couplées et bénéficier d'une planification de la maintenance indépendante (indépendante).
Planification groupée de la maintenance
Le type de planification groupée de la maintenance permet de s'assurer que, quelle que soit la date à laquelle Compute Engine provisionne une VM, toutes les VM exécutant la même charge de travail ont la même fréquence de maintenance planifiée. Cette maintenance étroitement couplée vous permet d'optimiser les performances de votre job en vous donnant un contrôle total sur votre capacité utilisée et inutilisée.
Un type de planification de la maintenance de groupe est utile dans les cas suivants :
- Votre environnement utilise un planificateur de tâches, tel que Slurm ou Google Kubernetes Engine.
- Vous souhaitez exécuter des charges de travail de calcul hautement parallélisées.
Planification indépendante de la maintenance
Le type de planification de la maintenance indépendante attribue des plannings de maintenance différents aux VM. Cette configuration est idéale si vous avez des charges de travail qui s'exécutent plus efficacement lorsque les VM ont des plannings de maintenance distincts.
Gérer les événements de l'organisateur
Une fois que vous avez créé des VM H4D et démarré votre charge de travail, vous pouvez configurer des alertes et recevoir des notifications lorsque la maintenance de vos VM ou blocs réservés est planifiée, démarre ou se termine. Vous pouvez également afficher et, si nécessaire, démarrer manuellement la maintenance d'une VM ou d'un bloc réservé avant l'heure prévue. Ces options vous aident à contrôler et à minimiser de manière proactive les temps d'arrêt de vos charges de travail.
Pour en savoir plus, consultez les ressources suivantes :
Outils de surveillance et de diagnostic des clusters
Pour la surveillance et le dépannage, les instances H4D incluent un service de signalement d'hôte défectueux, que vous pouvez utiliser pour signaler les problèmes liés à des machines hôtes individuelles.
Étape suivante
Créez un cluster HPC avec des fonctionnalités de gestion de cluster améliorées à l'aide de l'une des méthodes suivantes :
Observer et surveiller les VM dans votre cluster Slurm