本页面介绍了在运行 AI 优化型虚拟机或集群时可能会遇到的已知问题。如需了解 Compute Engine 虚拟机的问题,请参阅 Compute Engine 已知问题。
问题
以下部分列出了 AI Hypercomputer 的已知问题和解决方法。
由于 NVIDIA B200 GPU 的固件问题,A4 虚拟机上的工作负载中断
NVIDIA 发现了 A4 虚拟机使用的 B200 GPU 存在两个固件问题,这些问题会导致工作负载中断。具体来说,如果您发现 A4 虚拟机上的工作负载中断,请检查以下任一情况是否属实:
- 虚拟机的正常运行时间(
lastStartTimestamp字段)超过 65 天。 - 日志显示一条提及
0x02a的Xid 149消息。
为缓解此问题,我们建议您重置 GPU。 为帮助防止出现此问题,我们建议您至少每 60 天重置一次 A4 虚拟机上的 GPU。
注意:如果您在 GKE 中运行,可以使用 gpu-reset-tool 重置 GPU。此工具可自动执行重置流程,并且只需要目标节点名称。
元数据服务器可能会显示旧的 physicalHost 虚拟机元数据
遇到主机错误或使用报告故障主机 API 将实例移至新主机后,当您查询元数据服务器时,它可能会显示实例之前主机的 physicalHost 元数据。
如需解决此问题,请执行以下任一操作:
- 使用
instances.get方法或gcloud compute instances describe命令检索正确的physicalHost信息。 - 停止实例,然后启动实例。此过程会更新元数据服务器中的
physicalHost信息。 - 等待 24 小时,以便更新受影响实例的
physicalHost信息。