Auf dieser Seite werden bekannte Probleme beschrieben, die bei der Ausführung von KI-optimierten VMs oder Clustern auftreten können. Informationen zu Problemen mit Compute Engine-VMs finden Sie unter Bekannte Probleme mit Compute Engine.
Probleme
Im folgenden Abschnitt werden bekannte Probleme und Problemumgehungen für den AI Hypercomputer aufgeführt.
Unterbrechungen von Arbeitslasten auf A4-VMs aufgrund von Firmwareproblemen bei NVIDIA B200-GPUs
NVIDIA hat zwei Firmwareprobleme für B200-GPUs identifiziert, die von A4-VMs verwendet werden und zu Unterbrechungen von Arbeitslasten führen. Wenn Sie Unterbrechungen von Arbeitslasten auf A4-VMs feststellen, prüfen Sie, ob eine der folgenden Bedingungen zutrifft:
- Die Betriebszeit der VM (Feld
lastStartTimestamp) überschreitet 65 Tage. - In den Logs wird eine
Xid 149-Meldung mit dem Hinweis auf0x02aangezeigt.
Um dieses Problem zu beheben, empfehlen wir, Ihre GPUs zurückzusetzen. Um das Problem zu vermeiden, empfehlen wir, die GPUs auf A4-VMs mindestens einmal alle 60 Tage zurückzusetzen.
Der Metadatenserver zeigt möglicherweise alte physicalHost-VM-Metadaten an.
Nach einem Hostfehler oder wenn Sie die API zum Melden eines fehlerhaften Hosts verwenden, um eine Compute-Instanz auf einen neuen Host zu verschieben, werden beim Abfragen des Metadatenservers> möglicherweise die physicalHost-Metadaten des vorherigen Hosts der Compute-Instanz angezeigt.
Führen Sie einen der folgenden Schritte aus, um dieses Problem zu umgehen:
- Verwenden Sie die Methode
instances.getoder den Befehlgcloud compute instances describe, um die richtigenphysicalHost-Informationen abzurufen. - Beenden Sie die Instanz und starten Sie sie dann neu. Bei diesem Vorgang werden die
physicalHost-Informationen auf dem Metadatenserver aktualisiert. - Warten Sie 24 Stunden, bis die
physicalHost-Informationen der betroffenen Instanz aktualisiert werden.