Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Problèmes connus

Cette page décrit les problèmes connus que vous pouvez rencontrer lors de l'exécution de vos VM ou clusters optimisés pour l'IA. Pour les problèmes liés aux VM Compute Engine, consultez la section Problèmes connus dans Compute Engine.

Problèmes

La section suivante répertorie les problèmes connus et les solutions de contournement pour AI Hypercomputer.

Interruptions de charge de travail sur les VM A4 en raison de problèmes de micrologiciel pour les GPU NVIDIA B200

NVIDIA a identifié deux problèmes de micrologiciel pour les GPU B200, qui sont utilisés par les VM A4 et qui entraînent des interruptions de charge de travail. Plus précisément, si vous constatez des interruptions de charge de travail sur les VM A4, vérifiez si l'une des conditions suivantes est remplie :

La durée de disponibilité de la VM (champ lastStartTimestamp) dépasse 65 jours.
Les journaux affichent un Xid 149 message qui mentionne 0x02a.

Pour atténuer ce problème, nous vous recommandons de réinitialiser vos GPU. Pour éviter ce problème, nous vous recommandons de réinitialiser les GPU sur les VM A4 au moins une fois tous les 60 jours.

Le serveur de métadonnées peut afficher d'anciennes métadonnées de VM `physicalHost`

Après avoir rencontré une erreur d'hôte ou utilisé l' API report faulty host pour déplacer une instance de calcul vers un nouvel hôte, lorsque vous interrogez le serveur de métadonnées, il peut afficher les métadonnées physicalHost de l'hôte précédent de l'instance de calcul.

Pour contourner ce problème, effectuez l'une des opérations suivantes :

Utilisez la méthode instances.get ou la gcloud compute instances describe commande pour récupérer les informations physicalHost correctes.
Arrêtez, puis démarrez votre instance. Ce processus met à jour les informations physicalHost dans le serveur de métadonnées.
Attendez 24 heures que les informations physicalHost de l'instance concernée soient mises à jour.

Problèmes connus Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Problèmes

Interruptions de charge de travail sur les VM A4 en raison de problèmes de micrologiciel pour les GPU NVIDIA B200

Le serveur de métadonnées peut afficher d'anciennes métadonnées de VM physicalHost

Problèmes connus

Le serveur de métadonnées peut afficher d'anciennes métadonnées de VM `physicalHost`