Google utilise la technologie IA pour traduire le contenu dans votre langue préférée. Les traductions générées par IA peuvent contenir des erreurs.

Gestion améliorée des clusters HPC avec les instances H4D

Les fonctionnalités de gestion de cluster HPC améliorées vous permettent d'exécuter des clusters HPC à grande échelle et à déploiement dense. Elles offrent les fonctionnalités de gestion de cluster suivantes :

Colocation des ressources de cluster HPC
Placement tenant compte de la topologie du cluster
Mode de fonctionnement du cluster
Planification et contrôles de la maintenance des clusters
Outils de surveillance et de diagnostic des clusters

Colocation des ressources d'infrastructure HPC

Lorsque vous utilisez les instances H4D avec des fonctionnalités de gestion améliorées, vous pouvez demander à Compute Engine de provisionner vos instances aussi près que possible les unes des autres. Ces machines offrent les fonctionnalités suivantes :

Compute Engine provisionne les machines sous forme de blocs de ressources.
Évolutivité améliorée des charges de travail grâce à une mise en réseau Cloud RDMA à 200 Gbit/s.

Cette organisation des ressources minimise les sauts de réseau et optimise la latence réseau la plus faible. Pour savoir comment obtenir la capacité nécessaire au déploiement de blocs de machines à allocation dense, consultez Créer un cluster HPC avec des fonctionnalités de gestion améliorées.

Placement tenant compte de la topologie du cluster

Une fois que vous avez créé des VM ou des clusters de VM H4D, vous pouvez obtenir des informations sur la topologie au niveau des nœuds et des clusters. Ces informations vous aident à effectuer les opérations suivantes :

Ajustez la conception de votre application ou de votre charge de travail pour réduire davantage la latence du réseau.
Comprendre et résoudre les problèmes de latence et de performances réseau pour les VM qui communiquent fréquemment entre elles. Ces problèmes peuvent survenir si les VM sont situées de manière inattendue à une grande distance les unes des autres.

Pour en savoir plus, consultez Afficher la topologie d'une instance de calcul.

Maintenance et récupération gérées de vos VM H4D

Lorsque vous réservez de la capacité pour créer des VM ou des clusters H4D, Google Cloudgère automatiquement le processus de maintenance et de récupération de vos VM après des erreurs d'hôte ou des rapports d'hôte défectueux. Cette approche, appelée mode géré, est idéale lorsque votre charge de travail nécessite une grande stabilité et un processus automatisé pour minimiser les temps d'arrêt.

Le mode géré présente les caractéristiques suivantes :

N'utiliser la capacité réservée que pour la récupération : Compute Engine n'utilise votre capacité réservée que pour redémarrer les VM. S'il n'y a pas de capacité disponible dans vos réservations, Compute Engine ne redémarre les VM qu'une fois que vous avez obtenu plus de capacité.
Redémarrages automatisés des VM : Google Cloud gère l'ensemble du processus de récupération d'une VM. Lorsque la maintenance de l'hôte est requise, Compute Engine migre automatiquement vos VM vers d'autres machines disponibles dans votre réservation et les redémarre.
Gestion et visibilité des blocs : vous pouvez afficher la topologie, l'état et l'état de maintenance des réservations et des blocs de réservations individuels. Vous pouvez également recevoir des notifications de maintenance et, si vous le souhaitez, démarrer la maintenance avant l'heure prévue pour ces ressources.
Limites de débit potentielles de l'API : les appels à l'API report faulty host peuvent être soumis à une limite de débit par réservation.

Planification et contrôles de la maintenance des clusters

Vous contrôlez la maintenance des instances H4D à l'aide de la planification tenant compte de la topologie dans un bloc de ressources. Cette fonctionnalité permet de synchroniser les mises à niveau afin que vos charges de travail soient plus résilientes aux événements hôtes et que les perturbations soient minimisées.

Pour faciliter le contrôle total des événements de maintenance, vous pouvez utiliser les fonctionnalités suivantes :

Type de planification de la maintenance
Gérer les événements hôtes

Type de planification de la maintenance

Lorsque vous réservez de la capacité pour créer des VM ou des clusters d'instances de VM H4D, vous pouvez définir la façon dont Compute Engine gère l'infrastructure sur laquelle vos VM s'exécutent. Vous pouvez spécifier si les VM doivent être regroupées et bénéficier d'une planification de la maintenance synchronisée (groupée), ou si elles peuvent être faiblement couplées et bénéficier d'une planification de la maintenance indépendante (indépendante).

Planification groupée de la maintenance

Le type de planification groupée de la maintenance permet de s'assurer que, quelle que soit la date à laquelle Compute Engine provisionne une VM, toutes les VM exécutant la même charge de travail ont la même fréquence de maintenance planifiée. Cette maintenance étroitement couplée vous permet d'optimiser les performances de votre job en vous donnant un contrôle total sur votre capacité utilisée et inutilisée.

Un type de planification de la maintenance de groupe est utile dans les cas suivants :

Votre environnement utilise un planificateur de tâches, tel que Slurm ou Google Kubernetes Engine.
Vous souhaitez exécuter des charges de travail de calcul hautement parallélisées.

Planification indépendante de la maintenance

Le type de planification de la maintenance indépendante attribue des plannings de maintenance différents aux VM. Cette configuration est idéale si vous avez des charges de travail qui s'exécutent plus efficacement lorsque les VM ont des plannings de maintenance distincts.

Gérer les événements de l'organisateur

Une fois que vous avez créé des VM H4D et démarré votre charge de travail, vous pouvez configurer des alertes et recevoir des notifications lorsque la maintenance de vos VM ou blocs réservés est planifiée, démarre ou se termine. Vous pouvez également afficher et, si nécessaire, démarrer manuellement la maintenance d'une VM ou d'un bloc réservé avant l'heure prévue. Ces options vous aident à contrôler et à minimiser de manière proactive les temps d'arrêt de vos charges de travail.

Pour en savoir plus, consultez les ressources suivantes :

Outils de surveillance et de diagnostic des clusters

Pour la surveillance et le dépannage, les instances H4D incluent un service de signalement d'hôte défectueux, que vous pouvez utiliser pour signaler les problèmes liés à des machines hôtes individuelles.

Étape suivante

Créez un cluster HPC avec des fonctionnalités de gestion de cluster améliorées à l'aide de l'une des méthodes suivantes :
Vérifier la consommation des réservations
Afficher la topologie du cluster H4D
Gérer les événements hôtes sur les VM
Gérer les événements hôtes pour plusieurs réservations
Observer et surveiller les VM dans votre cluster Slurm
Signaler un hôte défectueux

Gestion améliorée des clusters HPC avec les instances H4D Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.