已知问题

本页面介绍了在运行 AI 优化型虚拟机或集群时可能会遇到的已知问题。如需了解 Compute Engine 虚拟机的问题,请参阅 Compute Engine 已知问题

问题

以下部分列出了 AI Hypercomputer 的已知问题和解决方法。

由于 NVIDIA B200 GPU 的固件问题,A4 虚拟机上的工作负载中断

NVIDIA 发现了 B200 GPU(A4 虚拟机使用)的两个固件问题,这些问题会导致工作负载中断。具体来说,如果您注意到 A4 虚拟机上的工作负载中断,请检查以下任一条件是否成立:

为缓解此问题,我们建议您 重置 GPU。 为帮助防止出现此问题,我们建议您至少每 60 天重置一次 A4 虚拟机上的 GPU。

元数据服务器可能会显示旧的 physicalHost 虚拟机元数据

遇到 主机错误或 使用 report faulty host API将计算实例移至新主机后,当您 查询元数据服务器时, 它可能会显示计算实例之前 主机的 physicalHost 元数据。

如需解决此问题,请执行以下任一操作: