Bekannte Probleme

Auf dieser Seite werden bekannte Probleme beschrieben, die bei der Ausführung von KI-optimierten VMs oder Clustern auftreten können. Informationen zu Problemen mit Compute Engine-VMs finden Sie unter Bekannte Probleme mit Compute Engine.

Probleme

Im folgenden Abschnitt werden bekannte Probleme und Problemumgehungen für den AI Hypercomputer aufgeführt.

Unterbrechungen von Arbeitslasten auf A4-VMs aufgrund von Firmwareproblemen bei NVIDIA B200-GPUs

NVIDIA hat zwei Firmwareprobleme für B200-GPUs identifiziert, die von A4-VMs verwendet werden und zu Unterbrechungen von Arbeitslasten führen. Wenn Sie Unterbrechungen von Arbeitslasten auf A4-VMs feststellen, prüfen Sie, ob eine der folgenden Bedingungen zutrifft:

Um dieses Problem zu beheben, empfehlen wir, Ihre GPUs zurückzusetzen. Um das Problem zu vermeiden, empfehlen wir, die GPUs auf A4-VMs mindestens einmal alle 60 Tage zurückzusetzen.

Der Metadatenserver zeigt möglicherweise alte physicalHost-VM-Metadaten an.

Nach einem Hostfehler oder wenn Sie die API zum Melden eines fehlerhaften Hosts verwenden, um eine Compute-Instanz auf einen neuen Host zu verschieben, werden beim Abfragen des Metadatenservers> möglicherweise die physicalHost-Metadaten des vorherigen Hosts der Compute-Instanz angezeigt.

Führen Sie einen der folgenden Schritte aus, um dieses Problem zu umgehen: