Cette page décrit les problèmes connus que vous pouvez rencontrer lors de l'exécution de vos VM ou clusters optimisés pour l'IA. Pour les problèmes liés aux VM Compute Engine, consultez la section Problèmes connus dans Compute Engine.
Problèmes
La section suivante répertorie les problèmes connus et les solutions de contournement pour AI Hypercomputer.
Interruptions de charge de travail sur les VM A4 en raison de problèmes de micrologiciel pour les GPU NVIDIA B200
NVIDIA a identifié deux problèmes de micrologiciel pour les GPU B200, qui sont utilisés par les VM A4 et qui entraînent des interruptions de charge de travail. Plus précisément, si vous constatez des interruptions de charge de travail sur les VM A4, vérifiez si l'une des conditions suivantes est remplie :
- La durée de disponibilité de la VM (champ
lastStartTimestamp) dépasse 65 jours. - Les journaux affichent un
Xid 149message qui mentionne0x02a.
Pour atténuer ce problème, nous vous recommandons de réinitialiser vos GPU. Pour éviter ce problème, nous vous recommandons de réinitialiser les GPU sur les VM A4 au moins une fois tous les 60 jours.
Le serveur de métadonnées peut afficher d'anciennes métadonnées de VM physicalHost
Après avoir rencontré une
erreur d'hôte ou
utilisé l'
API report faulty host pour
déplacer une instance de calcul vers un nouvel hôte, lorsque vous
interrogez le serveur de métadonnées,
il peut afficher les métadonnées physicalHost de l'hôte précédent de l'instance de calcul.
Pour contourner ce problème, effectuez l'une des opérations suivantes :
- Utilisez la méthode
instances.getou lagcloud compute instances describecommande pour récupérer les informationsphysicalHostcorrectes. - Arrêtez, puis démarrez votre
instance. Ce processus met à jour les informations
physicalHostdans le serveur de métadonnées. - Attendez 24 heures que les informations
physicalHostde l'instance concernée soient mises à jour.