手動啟動主機維護事件

本頁說明如何在支援的 TPU VM 上手動啟動主機維護事件。如果工作負載可能受到效能降低或停機影響,且您需要維護期間在特定時間開始,這項功能就非常實用。

手動啟動維護事件時,主機維護事件會立即啟動。您無法指定維護活動的開始日期或時間。如未使用這項功能,維護事件會在即將進行的維護通知中顯示的時間發生。

如要瞭解如何手動啟動 GKE 中 TPU 的維護作業,請參閱「管理 GPU 和 TPU 的 GKE 節點中斷」。

限制

您只能為具有下列設定的 TPU VM 手動啟動主機維護事件:

  • 任何 TPU v4 或 v5p VM
  • 具有 2x4 拓撲設定的 TPU v5e 或 v6e VM (例如,v6e-8 如果使用 Cloud TPU API 中的加速器類型欄位) 或更大
  • GKE v5e 或 v6e 多主機節點集區,其中包含 2x4 以上的 TPU VM

如果立即對較大的分片啟動主機維護作業,分片可能無法使用,時間最長可達數小時。通常,主機維護事件會導致切片盡快重新排定至另一組符合資格的主機,但如果是較大的主機維護事件要求,可能沒有足夠的容量立即重新排定切片,導致等待時間較長。

此外,對 Cloud TPU 區塊啟動維護作業時,系統會對所有基礎 TPU VM 啟動維護作業。如果您使用 Instances API 直接對其中一個執行個體執行維護作業,Cloud TPU 節點中的所有執行個體都會進入維護狀態。請改用 queued-resources Cloud TPU API,指定要維護的節點。

手動啟動主機維護事件

您可以透過維護通知,判斷何時能在 TPU 上手動啟動維護事件。

查看通知資訊

您可以使用 Cloud TPU API 或查詢 VM 上的中繼資料伺服器,找出即將執行的維護事件通知。詳情請參閱「查看維護通知」。

如果 TPU 上顯示即將進行主機維護的通知,您可以提前啟動維護事件。如要提前啟動維護事件,即將進行的主機維護通知必須將 canReschedule 設為 true,並將 maintenanceStatus 設為 PENDING

啟動維護事件

如要啟動主機維護事件,可以使用 Cloud TPU API 和 perform-maintenance 指令:

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

作業完成後,windowEndTimewindowStartTime 欄位會變更為您啟動維護事件的時間,而 maintenanceStatus 欄位會變更為 ONGOING。主機維護事件隨即開始。

使用 gcloud alpha compute tpus tpu-vm describe 指令查看維護事件的狀態:

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

輸出內容應包含與以下類似的區段:

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

當 TPU VM 的狀態為 READY,且 gcloud alpha compute tpus tpu-vm describe 指令的輸出內容不再包含 upcomingMaintenance 中繼資料欄位時,維護作業即完成。

在 Multislice 環境中,您可以使用下列指令,在特定切片上手動啟動主機維護事件:

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES 是佇列資源中以半形逗號分隔的節點 (節點) 清單,您要為這些節點啟動主機維護事件。舉例來說,如果佇列資源有名為 my-qr-0, my-qr-1my-qr-2 的節點,則 perform-maintenance 指令的有效輸入內容為 --node-names=my-qr-0,my-qr-1

後續步驟