在「所有容量」模式下回報並修復有 TPU 的故障主機
如果發現「所有容量」模式 VM 發生問題,且無法以其他方式解決,例如 ICI 延遲指標持續偏高,或溫度持續高於同類產品,建議您將主機回報為故障。回報主機故障時,Compute Engine 會將主機標示為故障,並執行主機維護作業,自動修復 VM。在「所有容量」模式下,TPU VM 不會在修復期間遷移至其他主機。如果容量充足,系統會在同一部主機上重新啟動 VM。只有執行 VM 的主機發生故障時,您才能回報。
使用 report-host-as-faulty 指令回報主機故障,並使用 --fault-behavior 參數提供問題的額外資訊。
gcloud compute instances report-host-as-faulty TPU_NAME \ --fault-reasons=behavior=FAULT_BEHAVIOR,description=DESCRIPTION \ --disruption-schedule=DISRUPTION_SCHEDULE
更改下列內容:
- TPU_NAME:TPU VM 的名稱。
FAULT_BEHAVIOR:您可以傳遞下列其中一個值:
PERFORMANCE:用於回報執行個體效能下降。SILENT_DATA_CORRUPTION:使用這項功能回報執行個體上任何疑似無聲資料損毀的情況。BEHAVIOR_UNSPECIFIED:如果問題不屬於其他行為群組,請使用這個選項回報。
DESCRIPTION:影響 VM 的問題說明。
DISRUPTION_SCHEDULE:指定啟動錯誤回報程序的時機。預設值為
IMMEDIATE,會立即啟動程序。「DISRUPTION_SCHEDULE」必須是下列其中一個值:IMMEDIATE、FUTURE。
回報主機故障作業通常會在 10 到 12 分鐘內完成,報表作業完成後,如果中斷時間表設為 IMMEDIATE,主機修復作業會在 1 分鐘內開始。如果中斷時間表設為 FUTURE,系統不會立即採取維修動作,而是會在日後偵測到任何故障時,安排 Compute Engine 維修。修復作業啟動後,VM 會關機。在主機修復完成前,VM 可能會維持在 PENDING 狀態。維修故障主機可能需要 3 到 14 天,甚至更久。在 TPU All Capacity 模式下,TPU VM 不會在維修期間遷移至其他主機。如果主機有足夠的容量,系統會在同一部主機上重新啟動這些執行個體。