Wartungsereignisse für TPUs im Modus „Verwaltete Kapazität“ verwalten

TPU-VMs sind Instanzen von Compute Engine-VMs mit angehängter TPU-Hardware. Compute Engine-VMs unterliegen den Wartungsereignissen der Compute Engine-VMs Jede TPU ist mit einer Compute Engine-VM verbunden, sodass die Verwendung von mehr TPUs (z. B. in einem TPU-Slice) die Wahrscheinlichkeit erhöht, dass eine Ihrer VMs von einem Wartungsereignis betroffen ist.

In diesem Dokument werden Ansätze zum Umgang mit Wartungsereignissen für Trainingsjobs mit langer Laufzeit auf TPUs beschrieben. Informationen zum Umgang mit Wartungsereignissen für TPUs in Google Kubernetes Engine (GKE) finden Sie unter GKE-Knotenstörung für GPUs und TPUs verwalten.

Benachrichtigungen zu anstehenden Wartungen ansehen

Wenn Sie die Fenster zu anstehenden Wartungen Ihrer Instanz im Auge behalten, können Sie Ihre Arbeitslasten proaktiv so vorbereiten, dass die anstehende Wartung nur minimale Störungen verursacht. Weitere Informationen finden Sie in der Compute Engine-Dokumentation unter Hostwartungs ereignis überwachen und planen.

Prüfpunkte für eine schnelle Wiederherstellung nach Wartungsereignissen verwenden

Prüfpunkte sind entscheidend für die schnelle Wiederherstellung nach Wartungsereignissen und sollten regelmäßig gespeichert werden. Wir empfehlen, Prüfpunkte etwa einmal pro Stunde zu speichern. Wenn Sie Prüfpunkte nicht oft genug speichern, besteht die Gefahr, dass Sie durch Wartungsereignisse oder andere Trainingsunterbrechungen viele Trainingsfortschritte verlieren.

Prüfpunkte beziehen sich im Allgemeinen auf alle gespeicherten Parameter, die beim Training verwendet werden (z. B. Modellgewichtungen). Die Zeit, die zum Speichern eines Prüfpunkts benötigt wird, kann zwischen Sekunden und Minuten liegen.

TPUs werden nach Wartungsereignissen zwar oft automatisch wiederhergestellt, es gibt aber Ausnahmefälle, in denen der Job nicht automatisch neu gestartet wird. In diesem Fall müssen Sie die TPU-Ressourcen löschen und neu erstellen und den Trainingsjob von einem gespeicherten Prüfpunkt aus neu starten. Informationen darüber, wie Sie Fehler bei der automatischen Wiederherstellung erkennen und beheben können, finden Sie unter TPU-Fehler erkennen und beheben.

Für jedes ML-Framework gibt es unterschiedliche Mechanismen zum Speichern und Laden von Prüfpunkten. Unterstützte Cloud TPU-Modelle haben in der Regel eine integrierte Prüfpunktfunktion. Weitere Informationen zu Prüfpunkten finden Sie in der folgenden Dokumentation:

Wartungsereignisse erkennen

Wenn Sie feststellen möchten, ob und wann ein Wartungsereignis auf Ihrer TPU aufgetreten ist, prüfen Sie die Audit-Logs zu Systemereignissen in Cloud Logging. Weitere Informationen finden Sie unter Wartungsereignis-Logs ansehen.

Sie können auch mit dem gcloud compute instances describe Befehl nach anstehenden Wartungsereignissen suchen. Weitere Informationen finden Sie in der Compute Engine-Dokumentation unter Hostwartungs ereignis überwachen und planen.

Wartungsereignis-Logs ansehen

Sie können sich in den Audit-Logs zu Systemereignissen die historischen Logs der Wartungsereignisse auf Ihrer TPU anzeigen lassen.

  1. Rufen Sie über das Navigationsmenü der Google Cloud Console die Seite „Log-Explorer“ auf:

    Zum Log-Explorer

  2. Verwenden Sie die folgende Suchanfrage, um alle TPU-VMs aufzurufen, die für die Wartung beendet wurden:

    "compute.instances.terminateOnHostMaintenance"

    Die Ergebnisse zeigen Logs für alle Unterbrechungen und Reparaturen Ihrer TPU-Worker innerhalb Ihres Suchzeitraums an. Die Logs enthalten:

    • Datum und Uhrzeit des Ereignisses
    • Art des Ereignisses
    • Grund für die Beendigung im Feld protoPayload.metadata.terminateReason

Wartung manuell starten

Sie können ein ausstehendes Hostwartungsereignis auf Ihrer TPU-VM manuell starten, um anstehende Wartungen proaktiv mit minimalen Unterbrechungen zu verarbeiten. Weitere Informationen finden Sie in der Compute Engine-Dokumentation unter Hostwartungsereignis manuell starten.

Nächste Schritte