Host-Wartungsereignis manuell starten
Auf dieser Seite wird beschrieben, wie Sie auf unterstützten TPU-VMs manuell ein Host-Wartungsereignis starten. Dies ist für solche Arbeitslasten nützlich, auf die sich eine verminderte Leistung bzw. Ausfallzeiten möglicherweise auswirken und für die das Wartungsfenster zu einem bestimmten Zeitpunkt beginnen muss.
Wenn Sie ein Wartungsereignis manuell starten, beginnt das Host-Wartungsereignis sofort. Sie können für den Beginn des Wartungsereignisses kein Datum und keine Uhrzeit angeben. Wenn Sie dieses Feature nicht verwenden, findet das Wartungsereignis zu dem in der Benachrichtigung über die bevorstehende Wartung angegebenen Zeitpunkt statt.
Informationen zum manuellen Starten einer Wartung für TPUs in GKE finden Sie unter GKE-Knotenunterbrechungen für GPUs und TPUs verwalten.
Beschränkungen
Sie können ein Host-Wartungsereignis nur für TPU-VMs mit den folgenden Konfigurationen manuell starten:
- Alle TPU-VMs vom Typ v4 oder v5p
- TPU-VMs vom Typ v5e oder v6e mit der Topologiekonfiguration
2x4
(z. B.v6e-8
, wenn in der Cloud TPU API das Feld „Beschleunigertyp“ verwendet wird) oder größer - GKE v5e- oder v6e-Knotenpools mit mehreren Hosts mit TPU-VMs, die die Größe
2x4
haben oder größer sind
Wenn Sie die Hostwartung für größere Slices sofort starten, kann es sein, dass Slices für bis zu mehrere Stunden nicht verfügbar sind. Normalerweise führt ein Host-Wartungsereignis dazu, dass der Slice so schnell wie möglich auf eine andere geeignete Gruppe von Hosts umgeplant wird. Bei größeren Anfragen für Host-Wartungsereignisse ist möglicherweise nicht genügend Kapazität vorhanden, um den Slice sofort umzuplanen, was zu einer längeren Wartezeit führt.
Wenn Sie die Wartung für den Cloud TPU-Slice starten, wird die Wartung auch für alle zugrunde liegenden TPU-VMs gestartet. Wenn Sie die Wartung direkt auf einer der Instanzen durchführen, die die Instances API verwenden, werden alle Instanzen im Cloud TPU-Slice gewartet. Sie können stattdessen auch die Cloud TPU API queued-resources
verwenden, um anzugeben, auf welchen Knoten Wartungsarbeiten durchgeführt werden sollen.
Host-Wartungsereignis manuell starten
Sie können Wartungsbenachrichtigungen verwenden, um zu ermitteln, wann Sie auf einer TPU manuell ein Wartungsereignis starten können.
Benachrichtigungsinformationen prüfen
Sie können die Benachrichtigungen für anstehende Wartungsereignisse über die Cloud TPU API oder durch Abfragen des Metadatenservers auf Ihrer VM abrufen. Weitere Informationen finden Sie unter Wartungsbenachrichtigungen ansehen.
Sie können ein Wartungsereignis dann vorzeitig starten, wenn auf der TPU eine Benachrichtigung über eine bevorstehende Hostwartung angezeigt wird. Damit das Wartungsereignis vorzeitig gestartet werden kann, muss in der Benachrichtigung zur bevorstehenden Hostwartung canReschedule
auf true
und maintenanceStatus
auf PENDING
festgelegt sein.
Wartungsereignis starten
Wenn Sie ein Host-Wartungsereignis starten möchten, können Sie die Cloud TPU API mit dem Befehl perform-maintenance
verwenden:
gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \ --zone=ZONE
Wenn der Vorgang abgeschlossen ist, ändert sich der Inhalt der Felder windowEndTime
und windowStartTime
in die Uhrzeit, zu der Sie das Wartungsereignis gestartet haben, und das Feld maintenanceStatus
ändert sich in ONGOING
. Das Host-Wartungsereignis beginnt kurz danach.
Verwenden Sie den Befehl gcloud alpha compute tpus tpu-vm describe
, um den Status des Wartungsereignisses aufzurufen:
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
Die Ausgabe enthält einen Abschnitt, der etwa so aussieht:
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: ONGOING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
Die Wartung ist dann abgeschlossen, wenn der Status der TPU-VM READY
ist und die Ausgabe des Befehls gcloud alpha compute tpus tpu-vm describe
kein upcomingMaintenance
-Metadatenfeld mehr enthält.
In Multislice-Umgebungen können Sie mit dem folgenden Befehl auf bestimmten Slices auch manuell ein Host-Wartungsereignis starten:
gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \ --zone=ZONE --node-names=NODE_NAMES
NODE_NAMES
ist eine durch Kommas getrennte Liste von Slices (Knoten) in der in die Warteschlange gestellten Ressource, für die Sie ein Host-Wartungsereignis starten möchten. Wenn die in die Warteschlange gestellte Ressource beispielsweise Knoten mit den Namen my-qr-0, my-qr-1
und my-qr-2
hat, wäre --node-names=my-qr-0,my-qr-1
eine gültige Eingabe für den Befehl perform-maintenance
.