在「所有容量」模式下回報並修復有 TPU 的故障主機

如果發現「所有容量」模式 VM 發生問題，且無法以其他方式解決，例如 ICI 延遲指標持續偏高，或溫度持續高於同類產品，建議您將主機回報為故障。回報主機故障時，Compute Engine 會將主機標示為故障，並執行主機維護作業，自動修復 VM。在「所有容量」模式下，TPU VM 不會在修復期間遷移至其他主機。如果容量充足，系統會在同一部主機上重新啟動 VM。只有執行 VM 的主機發生故障時，您才能回報。

使用 report-host-as-faulty 指令回報主機故障，並使用 --fault-behavior 參數提供問題的額外資訊。

gcloud compute instances report-host-as-faulty TPU_NAME \
    --fault-reasons=behavior=FAULT_BEHAVIOR,description=DESCRIPTION \
    --disruption-schedule=DISRUPTION_SCHEDULE

更改下列內容：

TPU_NAME：TPU VM 的名稱。
FAULT_BEHAVIOR：您可以傳遞下列其中一個值：
- PERFORMANCE：用於回報執行個體效能下降。
- SILENT_DATA_CORRUPTION：使用這項功能回報執行個體上任何疑似無聲資料損毀的情況。
- BEHAVIOR_UNSPECIFIED：如果問題不屬於其他行為群組，請使用這個選項回報。
DESCRIPTION：影響 VM 的問題說明。
DISRUPTION_SCHEDULE：指定啟動錯誤回報程序的時機。預設值為 IMMEDIATE，會立即啟動程序。「DISRUPTION_SCHEDULE」必須是下列其中一個值：IMMEDIATE、FUTURE。

回報主機故障作業通常會在 10 到 12 分鐘內完成，報表作業完成後，如果中斷時間表設為 IMMEDIATE，主機修復作業會在 1 分鐘內開始。如果中斷時間表設為 FUTURE，系統不會立即採取維修動作，而是會在日後偵測到任何故障時，安排 Compute Engine 維修。修復作業啟動後，VM 會關機。在主機修復完成前，VM 可能會維持在 PENDING 狀態。維修故障主機可能需要 3 到 14 天，甚至更久。在 TPU All Capacity 模式下，TPU VM 不會在維修期間遷移至其他主機。如果主機有足夠的容量，系統會在同一部主機上重新啟動這些執行個體。