Problèmes connus

Cette page décrit les problèmes connus que vous pouvez rencontrer lors de l'exécution de vos VM ou clusters optimisés pour l'IA. Pour les problèmes liés aux VM Compute Engine, consultez la section Problèmes connus dans Compute Engine.

Problèmes

La section suivante répertorie les problèmes connus et les solutions de contournement pour AI Hypercomputer.

Interruptions de charge de travail sur les VM A4 en raison de problèmes de micrologiciel pour les GPU NVIDIA B200

NVIDIA a identifié deux problèmes de micrologiciel pour les GPU B200, qui sont utilisés par les VM A4 et qui entraînent des interruptions de charge de travail. Plus précisément, si vous constatez des interruptions de charge de travail sur les VM A4, vérifiez si l'une des conditions suivantes est remplie :

Pour atténuer ce problème, nous vous recommandons de réinitialiser vos GPU. Pour éviter ce problème, nous vous recommandons de réinitialiser les GPU sur les VM A4 au moins une fois tous les 60 jours.

Le serveur de métadonnées peut afficher d'anciennes métadonnées de VM physicalHost

Après avoir rencontré une erreur d'hôte ou utilisé l' API report faulty host pour déplacer une instance de calcul vers un nouvel hôte, lorsque vous interrogez le serveur de métadonnées, il peut afficher les métadonnées physicalHost de l'hôte précédent de l'instance de calcul.

Pour contourner ce problème, effectuez l'une des opérations suivantes :