Fonctionnalités de gestion des clusters

Les séries de machines A4X Max, A4X, A4, A3 Ultra, A3 Mega et A3 High (8 GPU) sont conçues pour vous permettre d'exécuter des clusters d'intelligence artificielle (IA) et de machine learning (ML) à grande échelle, et offrent les fonctionnalités de gestion de cluster suivantes :

Colocation des ressources d'infrastructure d'IA

Lorsque vous utilisez les types de machines A4X Max, A4X, A4, A3 Ultra, A3 Mega et A3 High (8 GPU), vous pouvez demander des machines hôtes que Compute Engine provisionne le plus près possible les unes des autres. Ces machines offrent les fonctionnalités suivantes :

Cette organisation des ressources réduit au maximum les sauts de réseau et permet d'obtenir la latence réseau la plus faible possible. Pour savoir comment obtenir la capacité nécessaire au déploiement de blocs de machines optimisées pour les accélérateurs à allocation dense, consultez Présentation de la capacité.

Placement tenant compte de la topologie du cluster

Une fois que vous avez créé des instances de calcul à l'aide des types de machines A4X Max, A4X, A4, A3 Ultra, A3 Mega et A3 High (8 GPU), vous pouvez obtenir des informations sur la topologie au niveau du nœud et du cluster. Ces informations vous aident à effectuer les opérations suivantes :

  • Ajustez la conception de votre application ou de votre charge de travail pour réduire davantage la latence du réseau.

  • Comprendre et résoudre les problèmes de latence et de performances réseau pour les instances qui communiquent fréquemment entre elles. Ces problèmes peuvent se produire si les instances sont situées de manière inattendue à une grande distance les unes des autres.

Pour en savoir plus, consultez Afficher la topologie des instances de calcul.

Mode de fonctionnement du cluster

Lorsque vous réservez de la capacité pour créer des instances ou des clusters de calcul à l'aide des types de machines A4X Max, A4X, A4, A3 Ultra, A3 Mega et A3 High (8 GPU), le type de machine que vous réservez détermine le mode opérationnel du cluster pour les instances. Ce mode spécifie le comportement de vos instances après des erreurs d'hôte ou des rapports d'hôte défectueux. Les modes opérationnels disponibles pour une instance sont les suivants : Mode géré : Compute Engine remplace automatiquement toute machine défectueuse, mais conserve une partie de votre capacité réservée pour s'assurer que vos instances disposent des ressources nécessaires pour redémarrer. Le mode "Toute la capacité" vous donne accès à l'intégralité de votre capacité réservée, mais vous êtes responsable de la gestion des défaillances et de la maintenance planifiée.

Pour en savoir plus, consultez Mode opérationnel des réservations.

Planification et contrôles de la maintenance des clusters

Vous contrôlez la maintenance des machines A4X Max, A4X, A4, A3 Ultra, A3 Mega et A3 High (8 GPU) en utilisant la planification tenant compte de la topologie dans un bloc de ressources. Cette fonctionnalité permet de synchroniser les mises à niveau afin que vos charges de travail soient plus résilientes aux événements hôtes et de minimiser les perturbations. Cette approche permet d'améliorer le débit utile de votre charge de travail.

Pour faciliter le contrôle total des événements de maintenance, vous pouvez utiliser les fonctionnalités suivantes :

Type de planification de la maintenance

Lorsque vous réservez de la capacité pour créer des instances de calcul ou des clusters de machines A4X Max, A4X, A4, A3 Ultra, A3 Mega et A3 High (8 GPU), vous pouvez définir la façon dont Compute Engine gère l'infrastructure sur laquelle vos instances s'exécutent. En fonction du type de machine que vous souhaitez utiliser pour vos instances, vous pouvez choisir entre une maintenance synchronisée sur les instances (groupée) ou des plannings de maintenance différents (indépendants).

Pour en savoir plus, consultez Types de planification de la maintenance.

Gérer les événements de l'organisateur

Une fois que vous avez créé des instances A4X Max, A4X, A4, A3 Ultra, A3 Mega et A3 High (8 GPU) et démarré votre charge de travail, vous pouvez configurer des alertes et recevoir des notifications lorsque la maintenance de vos instances ou blocs réservés est planifiée, démarre ou se termine. Vous pouvez également afficher et, si nécessaire, démarrer manuellement la maintenance d'une instance ou d'un bloc réservé avant l'heure prévue. Ces options vous aident à contrôler et à minimiser de manière proactive les temps d'arrêt de vos charges de travail.

Pour en savoir plus, consultez les ressources suivantes :

Outils de surveillance et de diagnostic des clusters

Pour la surveillance et le dépannage, les machines A4X Max, A4X, A4, A3 Ultra, A3 Mega et A3 High (8 GPU) incluent les services suivants :

Étape suivante