Problèmes connus

Cette page décrit les problèmes connus que vous pouvez rencontrer lors de l'exécution de vos VM ou clusters optimisés pour l'IA. Pour les problèmes liés aux VM Compute Engine, consultez Problèmes connus dans Compute Engine.

Problèmes

La section suivante liste les problèmes connus et les solutions de contournement pour AI Hypercomputer.

Interruptions de charge de travail sur les VM A4 en raison de problèmes de micrologiciel pour les GPU NVIDIA B200

NVIDIA a identifié deux problèmes de micrologiciel pour les GPU B200, qui sont utilisés par les VM A4 et qui entraînent des interruptions de charge de travail. Plus précisément, si vous constatez des interruptions de charge de travail sur les VM A4, vérifiez si l'une des conditions suivantes est remplie :

  • La durée d'activité de la VM (champ lastStartTimestamp) dépasse 65 jours.
  • Les journaux affichent un message Xid 149 mentionnant 0x02a.

Pour résoudre ce problème, nous vous recommandons de réinitialiser vos GPU. Pour éviter ce problème, nous vous recommandons de réinitialiser les GPU sur les VM A4 au moins une fois tous les 60 jours.

Remarque : Si vous exécutez GKE, vous pouvez utiliser l'outil de réinitialisation des GPU pour réinitialiser les GPU. Cet outil automatise le processus de réinitialisation et ne nécessite que le nom du nœud cible.

Le serveur de métadonnées peut afficher d'anciennes métadonnées de VM physicalHost.

Après avoir rencontré une erreur d'hôte ou utilisé l'API de signalement d'hôte défectueux pour déplacer une instance vers un nouvel hôte, lorsque vous interrogez le serveur de métadonnées, il peut afficher les métadonnées physicalHost de l'hôte précédent de l'instance.

Pour contourner ce problème, effectuez l'une des opérations suivantes :