本页面介绍了在运行 AI 优化型虚拟机或集群时可能会遇到的已知问题。如需了解 Compute Engine 虚拟机的问题,请参阅 Compute Engine 已知问题。
问题
以下部分列出了 AI Hypercomputer 的已知问题和解决方法。
由于 NVIDIA B200 GPU 的固件问题,A4 虚拟机上的工作负载中断
NVIDIA 发现了 B200 GPU(A4 虚拟机使用)的两个固件问题,这些问题会导致工作负载中断。具体来说,如果您注意到 A4 虚拟机上的工作负载中断,请检查以下任一条件是否成立:
- 虚拟机的正常运行时间(
lastStartTimestamp字段)超过 65 天。 - 日志显示一条提及
0x02a的Xid 149消息。
为缓解此问题,我们建议您 重置 GPU。 为帮助防止出现此问题,我们建议您至少每 60 天重置一次 A4 虚拟机上的 GPU。
元数据服务器可能会显示旧的 physicalHost 虚拟机元数据
遇到
主机错误或
使用
report faulty host API将计算实例移至新主机后,当您
查询元数据服务器时,
它可能会显示计算实例之前
主机的 physicalHost 元数据。
如需解决此问题,请执行以下任一操作:
- 使用
instances.get方法或gcloud compute instances describe命令检索正确的physicalHost信息。 - 停止实例,然后启动实例。此过程会更新元数据服务器中的
physicalHost信息。 - 等待 24 小时,以便更新受影响实例的
physicalHost信息。