手動啟動主機維護事件
本頁說明如何在支援的 TPU VM 上手動啟動主機維護事件。如果工作負載可能受到效能降低或停機影響,且您需要維護期間在特定時間開始,這項功能就非常實用。
手動啟動維護事件時,主機維護事件會立即啟動。您無法指定維護活動的開始日期或時間。如未使用這項功能,維護事件會在即將進行的維護通知中顯示的時間發生。
如要瞭解如何手動啟動 GKE 中 TPU 的維護作業,請參閱「管理 GPU 和 TPU 的 GKE 節點中斷」。
限制
您只能為具有下列設定的 TPU VM 手動啟動主機維護事件:
- 任何 TPU v4 或 v5p VM
- 具有
2x4
拓撲設定的 TPU v5e 或 v6e VM (例如,v6e-8
如果使用 Cloud TPU API 中的加速器類型欄位) 或更大 - GKE v5e 或 v6e 多主機節點集區,其中包含
2x4
以上的 TPU VM
如果立即對較大的分片啟動主機維護作業,分片可能無法使用,時間最長可達數小時。通常,主機維護事件會導致切片盡快重新排定至另一組符合資格的主機,但如果是較大的主機維護事件要求,可能沒有足夠的容量立即重新排定切片,導致等待時間較長。
此外,對 Cloud TPU 區塊啟動維護作業時,系統會對所有基礎 TPU VM 啟動維護作業。如果您使用 Instances API 直接對其中一個執行個體執行維護作業,Cloud TPU 節點中的所有執行個體都會進入維護狀態。請改用 queued-resources
Cloud TPU API,指定要維護的節點。
手動啟動主機維護事件
您可以透過維護通知,判斷何時能在 TPU 上手動啟動維護事件。
查看通知資訊
您可以使用 Cloud TPU API 或查詢 VM 上的中繼資料伺服器,找出即將執行的維護事件通知。詳情請參閱「查看維護通知」。
如果 TPU 上顯示即將進行主機維護的通知,您可以提前啟動維護事件。如要提前啟動維護事件,即將進行的主機維護通知必須將 canReschedule
設為 true
,並將 maintenanceStatus
設為 PENDING
。
啟動維護事件
如要啟動主機維護事件,可以使用 Cloud TPU API 和 perform-maintenance
指令:
gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \ --zone=ZONE
作業完成後,windowEndTime
和 windowStartTime
欄位會變更為您啟動維護事件的時間,而 maintenanceStatus
欄位會變更為 ONGOING
。主機維護事件隨即開始。
使用 gcloud alpha compute tpus tpu-vm describe
指令查看維護事件的狀態:
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
輸出內容應包含與以下類似的區段:
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: ONGOING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
當 TPU VM 的狀態為 READY
,且 gcloud alpha compute tpus tpu-vm describe
指令的輸出內容不再包含 upcomingMaintenance
中繼資料欄位時,維護作業即完成。
在 Multislice 環境中,您可以使用下列指令,在特定切片上手動啟動主機維護事件:
gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \ --zone=ZONE --node-names=NODE_NAMES
NODE_NAMES
是佇列資源中以半形逗號分隔的節點 (節點) 清單,您要為這些節點啟動主機維護事件。舉例來說,如果佇列資源有名為 my-qr-0, my-qr-1
和 my-qr-2
的節點,則 perform-maintenance
指令的有效輸入內容為 --node-names=my-qr-0,my-qr-1
。