Fehlerhafte Hosts mit TPUs im Modus „Alle Kapazitäten“ melden und reparieren
Wenn Sie Probleme auf einer VM im Modus „Alle Kapazitäten“ feststellen, die Sie nicht anders beheben können, z. B. durchgehend hohe ICI-Latenzmesswerte oder durchgehend hohe Temperatur im Vergleich zu anderen VMs, empfehlen wir, den Host als fehlerhaft zu melden. Wenn Sie einen Host als fehlerhaft melden, markiert Compute Engine den Host als fehlerhaft und repariert die VM automatisch durch Ausführen der Hostwartung. Im Modus „All Capacity“ werden TPU-VMs während der Reparatur nicht auf einen anderen Host migriert. Stattdessen werden sie auf demselben Host neu gestartet, sofern genügend Kapazität vorhanden ist. Sie können nur einen fehlerhaften Host melden, auf dem VMs ausgeführt werden.
Verwenden Sie den Befehl report-host-as-faulty, um einen fehlerhaften Host zu melden. Mit dem Parameter --fault-behavior können Sie zusätzliche Informationen zum Problem angeben.
gcloud compute instances report-host-as-faulty TPU_NAME \ --fault-reasons=behavior=FAULT_BEHAVIOR,description=DESCRIPTION \ --disruption-schedule=DISRUPTION_SCHEDULE
Ersetzen Sie Folgendes:
- TPU_NAME: Der Name der TPU-VM.
FAULT_BEHAVIOR: Sie können einen der folgenden Werte übergeben:
PERFORMANCE: Verwenden Sie diese Option, um eine Leistungsbeeinträchtigung bei einer Instanz zu melden.SILENT_DATA_CORRUPTION: Verwenden Sie diese Option, um einen vermuteten stillen Datenverlust in einer Instanz zu melden.BEHAVIOR_UNSPECIFIED: Verwenden Sie diese Option, um ein Problem zu melden, das nicht in die anderen Verhaltensgruppen passt.
DESCRIPTION: Eine Beschreibung des Problems, das Ihre VM betrifft.
DISRUPTION_SCHEDULE: Gibt den Zeitpunkt für den Beginn des Fehlerberichts an. Der Standardwert ist
IMMEDIATE, wodurch der Prozess sofort gestartet wird.DISRUPTION_SCHEDULEmuss einer der folgenden Werte sein:IMMEDIATE,FUTURE.
Das Melden eines fehlerhaften Hostvorgangs dauert in der Regel 10 bis 12 Minuten. Sobald der Berichtsvorgang abgeschlossen ist, beginnt die Hostreparatur innerhalb einer Minute, wenn der Unterbrechungszeitplan auf IMMEDIATE festgelegt ist. Wenn der Unterbrechungszeitplan auf FUTURE gesetzt ist, wird keine Reparaturmaßnahme sofort ergriffen. Stattdessen plant Compute Engine eine Reparatur, wenn in Zukunft ein Fehler erkannt wird. Sobald die Reparatur eingeleitet wurde, wird die VM heruntergefahren. Die VM kann bis zur Reparatur des Hosts im Status PENDING bleiben. Die Reparatur des defekten Geräts kann 3 bis 14 Tage oder länger dauern. Im TPU All Capacity-Modus werden TPU-VMs während der Reparatur nicht zu einem anderen Host migriert. Stattdessen werden sie auf demselben Host neu gestartet, wenn genügend Kapazität vorhanden ist.