Bekannte Probleme

Auf dieser Seite werden bekannte Probleme beschrieben, die bei der Ausführung von KI-optimierten VMs oder Clustern auftreten können. Informationen zu Problemen mit Compute Engine-VMs finden Sie unter Bekannte Probleme mit Compute Engine.

Probleme

Im folgenden Abschnitt werden bekannte Probleme und Problemumgehungen für den AI Hypercomputer aufgeführt.

Unterbrechungen von Arbeitslasten auf A4-VMs aufgrund von Firmwareproblemen bei NVIDIA B200-GPUs

NVIDIA hat zwei Firmwareprobleme für B200-GPUs identifiziert, die von A4-VMs verwendet werden und zu Unterbrechungen von Arbeitslasten führen. Wenn Sie Unterbrechungen von Arbeitslasten auf A4-VMs bemerken, prüfen Sie, ob eine der folgenden Bedingungen zutrifft:

Um dieses Problem zu beheben, empfehlen wir, Ihre GPUs zurückzusetzen. Um das Problem zu vermeiden, empfehlen wir, die GPUs auf A4-VMs mindestens einmal alle 60 Tage zurückzusetzen.

Hinweis:Wenn Sie GKE verwenden, können Sie die GPUs mit dem gpu-reset-tool zurücksetzen. Dieses Tool automatisiert den Zurücksetzungsvorgang und erfordert nur den Namen des Zielknotens.

Der Metadatenserver zeigt möglicherweise alte physicalHost-VM-Metadaten an.

Nachdem ein Hostfehler aufgetreten ist oder Sie die API zum Melden eines fehlerhaften Hosts verwendet haben, um eine Instanz auf einen neuen Host zu verschieben, werden beim Abfragen des Metadatenservers> möglicherweise die physicalHost-Metadaten des vorherigen Hosts der Instanz angezeigt.

Führen Sie einen der folgenden Schritte aus, um dieses Problem zu umgehen: