报告并修复具有全容量模式的 TPU 的故障主机

如果您发现以全容量模式运行的虚拟机上存在无法通过其他方式解决的问题（例如 ICI 延迟时间指标一直很高，或者与同类虚拟机相比温度一直很高），建议您将相应主机报告为有故障。当您将主机报告为有故障时，Compute Engine 会将该主机报告为有故障，然后通过运行主机维护来自动修复虚拟机。在全容量模式下，TPU 虚拟机在维修期间不会迁移到其他主机。而是会在同一主机上重启（如果有足够的容量）。您只能报告具有正在运行的虚拟机的故障主机。

使用 report-host-as-faulty 命令报告故障主机，并使用 --fault-behavior 参数提供有关问题的其他信息。

gcloud compute instance report-host-as-faulty example-tpu-vm
   --fault-behavior \ # required
   --description="silent data corruption affecting our ML job…"
  [--disruption_policy=FUTURE | IMMEDIATE]

您可以为 --fault-behavior 传递以下值之一：

PERFORMANCE：用于报告实例上的性能下降
SILENT_DATA_CORRUPTION：用于报告实例上任何可疑的静默数据损坏
CHIP_ERROR：用于报告导致加速器无响应的任何 TPU 错误或故障。
BEHAVIOR_UNSPECIFIED：用于报告不属于其他三个行为组的问题。

报告故障主机操作通常需要 10-12 分钟才能完成。报告操作完成后，如果中断政策设置为 immediate，主机修复会在 1 分钟内开始。如果中断政策设置为 future，系统不会立即采取修复措施；而是 Compute Engine 会在日后检测到任何故障时安排修复。修复启动后，虚拟机会关停。在主机修复完成之前，虚拟机可能会一直处于 pending 状态。修复故障主机可能需要 3-14 天或更长时间。在 TPU 全容量模式下，TPU 虚拟机在修复期间不会迁移到其他主机。如果容量充足，它们将在同一主机上重启。