已知问题

本页面介绍了在运行 AI 优化型虚拟机或集群时可能会遇到的已知问题。如需了解 Compute Engine 虚拟机的问题,请参阅 Compute Engine 已知问题

问题

以下部分列出了 AI Hypercomputer 的已知问题和解决方法。

由于 NVIDIA B200 GPU 的固件问题,A4 虚拟机上的工作负载中断

NVIDIA 发现了 A4 虚拟机使用的 B200 GPU 存在两个固件问题,这些问题会导致工作负载中断。具体来说,如果您发现 A4 虚拟机上的工作负载中断,请检查以下任一情况是否属实:

为缓解此问题,我们建议您重置 GPU。 为帮助防止出现此问题,我们建议您至少每 60 天重置一次 A4 虚拟机上的 GPU。

注意:如果您在 GKE 中运行,可以使用 gpu-reset-tool 重置 GPU。此工具可自动执行重置流程,并且只需要目标节点名称。

元数据服务器可能会显示旧的 physicalHost 虚拟机元数据

遇到主机错误或使用报告故障主机 API 将实例移至新主机后,当您查询元数据服务器时,它可能会显示实例之前主机的 physicalHost 元数据。

如需解决此问题,请执行以下任一操作: