Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Bekannte Probleme

Auf dieser Seite werden bekannte Probleme beschrieben, die bei der Ausführung von KI-optimierten VMs oder Clustern auftreten können. Informationen zu Problemen mit Compute Engine-VMs finden Sie unter Bekannte Probleme mit Compute Engine.

Probleme

Im folgenden Abschnitt werden bekannte Probleme und Problemumgehungen für den AI Hypercomputer aufgeführt.

Unterbrechungen von Arbeitslasten auf A4-VMs aufgrund von Firmwareproblemen bei NVIDIA B200-GPUs

NVIDIA hat zwei Firmwareprobleme für B200-GPUs identifiziert, die von A4-VMs verwendet werden und zu Unterbrechungen von Arbeitslasten führen. Wenn Sie Unterbrechungen von Arbeitslasten auf A4-VMs feststellen, prüfen Sie, ob eine der folgenden Bedingungen zutrifft:

Die Betriebszeit der VM (Feld lastStartTimestamp) überschreitet 65 Tage.
In den Logs wird eine Xid 149-Meldung mit dem Hinweis 0x02a angezeigt.

Um dieses Problem zu beheben, empfehlen wir, Ihre GPUs zurückzusetzen. Um das Problem zu vermeiden, empfehlen wir, die GPUs auf A4-VMs mindestens einmal alle 60 Tage zurückzusetzen.

Der Metadatenserver zeigt möglicherweise alte `physicalHost`-VM-Metadaten an.

Nach einem Hostfehler oder wenn Sie die API zum Melden eines fehlerhaften Hosts verwenden, um eine Compute-Instanz auf einen neuen Host zu verschieben, werden beim Abfragen des Metadatenservers> möglicherweise die physicalHost-Metadaten des vorherigen Hosts der Compute-Instanz angezeigt.

Führen Sie einen der folgenden Schritte aus, um dieses Problem zu umgehen:

Verwenden Sie die Methode instances.get oder den Befehl gcloud compute instances describe, um die richtigen physicalHost-Informationen abzurufen.
Beenden Sie die Instanz und starten Sie sie dann neu. Bei diesem Vorgang werden die physicalHost-Informationen auf dem Metadatenserver aktualisiert.
Warten Sie 24 Stunden, bis die physicalHost-Informationen der betroffenen Instanz aktualisiert werden.

Bekannte Probleme Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Probleme

Unterbrechungen von Arbeitslasten auf A4-VMs aufgrund von Firmwareproblemen bei NVIDIA B200-GPUs

Der Metadatenserver zeigt möglicherweise alte physicalHost-VM-Metadaten an.

Bekannte Probleme

Der Metadatenserver zeigt möglicherweise alte `physicalHost`-VM-Metadaten an.