Fonctionnalités de gestion des clusters

Les séries de machines A4X Max, A4X, A4, A3 Ultra, A3 Mega, et A3 High (8 GPU) sont conçues pour vous permettre d' exécuter des clusters d'intelligence artificielle (IA) et de machine learning (ML) à grande échelle et offrent les fonctionnalités de gestion de cluster suivantes :

Colocation des ressources d'infrastructure d'IA

Lorsque vous utilisez A4X Max, A4X, A4, A3 Ultra, A3 Mega et A3 High (8 GPU), vous pouvez demander des machines hôtes que Compute Engine provisionne aussi près que possible les unes des autres. Ces machines offrent les fonctionnalités suivantes :

Cette disposition des ressources réduit au maximum les sauts de réseau et permet d'obtenir la latence réseau la plus faible possible. Pour en savoir plus sur l'obtention de capacité pour déployer des blocs de machines optimisées pour les accélérateurs alloués de manière dense, consultez la présentation de la capacité.

Placement tenant compte de la topologie du cluster

Une fois que vous avez créé des instances de calcul à l'aide des types de machines A4X Max, A4X, A4, A3 Ultra, A3 Mega et A3 High (8 GPU), vous pouvez obtenir des informations sur la topologie au niveau du nœud et du cluster. Ces informations vous aident à effectuer les opérations suivantes :

  • Ajuster la conception de votre application ou de votre charge de travail pour minimiser davantage la latence du réseau.

  • Comprendre et résoudre les problèmes de latence et de performances du réseau pour les instances qui communiquent fréquemment entre elles. Ces problèmes peuvent se produire si les instances sont plus éloignées que prévu.

Pour en savoir plus, consultez la page Afficher la topologie des instances de calcul.

Mode de fonctionnement du cluster

Lorsque vous réservez de la capacité pour créer des instances de calcul ou des clusters à l'aide des types de machines A4X Max, A4X, A4, A3 Ultra, A3 Mega et A3 High (8 GPU), le type de machine que vous réservez détermine le mode de fonctionnement du cluster pour les instances. Ce mode spécifie le comportement de vos instances après des erreurs d'hôte ou des rapports d'hôte défectueux. Les modes de fonctionnement disponibles pour une instance sont mode géré, dans lequel Compute Engine remplace automatiquement toutes les machines défectueuses mais conserve une partie de votre capacité réservée pour s'assurer que vos instances disposent des ressources nécessaires pour redémarrer. Ou le mode pleine capacité, dans lequel vous avez accès à l'intégralité de votre capacité réservée, mais vous êtes responsable de la gestion des défaillances et de la maintenance planifiée.

Pour en savoir plus, consultez la section Mode de fonctionnement de la réservation.

Planification et contrôles de la maintenance du cluster

Vous contrôlez la maintenance des machines A4X Max, A4X, A4, A3 Ultra, A3 Mega et A3 High (8 GPU) à l'aide de la planification tenant compte de la topologie dans un bloc de ressources. Cette fonctionnalité permet de synchroniser les mises à niveau afin que vos charges de travail soient plus résilientes aux événements hôtes et de minimiser les perturbations. Cette approche permet d'améliorer le débit utile de votre charge de travail.

Pour faciliter le contrôle total des événements de maintenance, vous pouvez utiliser les fonctionnalités suivantes :

Type de planification de la maintenance

Lorsque vous réservez de la capacité pour créer des instances de calcul ou des clusters de machines A4X Max, A4X, A4, A3 Ultra, A3 Mega et A3 High (8 GPU), vous pouvez définir la façon dont Compute Engine gère l'infrastructure sur laquelle vos instances s'exécutent. En fonction du type de machine que vous souhaitez utiliser pour vos instances, vous pouvez choisir entre une maintenance synchronisée sur toutes les instances (groupée) ou des calendriers de maintenance différents (indépendants).

Pour en savoir plus, consultez la section Types de planification de la maintenance.

Gérer les événements hôtes

Une fois que vous avez créé des instances A4X Max, A4X, A4, A3 Ultra, A3 Mega et A3 High (8 GPU) et démarré votre charge de travail, vous pouvez configurer des alertes et recevoir des notifications lorsque la maintenance de vos instances ou blocs réservés est planifiée, démarre ou est terminée. Vous pouvez également afficher et, si nécessaire, démarrer manuellement la maintenance sur une instance ou un bloc réservé avant l'heure prévue. Ces options vous aident à contrôler de manière proactive et à minimiser les temps d'arrêt de vos charges de travail.

Pour en savoir plus, consultez les ressources suivantes :

Outils de surveillance et de diagnostic du cluster

Pour la surveillance et le dépannage, les machines A4X Max, A4X, A4, A3 Ultra, A3 Mega et A3 High (8 GPU) incluent les services suivants :

Étape suivante