Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

已知问题

本页面介绍了在运行 AI 优化型虚拟机或集群时可能会遇到的已知问题。如需了解 Compute Engine 虚拟机的问题，请参阅 Compute Engine 已知问题。

问题

以下部分列出了 AI Hypercomputer 的已知问题和解决方法。

由于 NVIDIA B200 GPU 的固件问题，A4 虚拟机上的工作负载中断

NVIDIA 发现了 B200 GPU（A4 虚拟机使用）的两个固件问题，这些问题会导致工作负载中断。具体来说，如果您注意到 A4 虚拟机上的工作负载中断，请检查以下任一条件是否成立：

虚拟机的正常运行时间（lastStartTimestamp 字段）超过 65 天。
日志显示一条提及 0x02a 的 Xid 149 消息。

为缓解此问题，我们建议您重置 GPU。为帮助防止此问题，我们建议您至少每 60 天重置一次 A4 虚拟机上的 GPU。

元数据服务器可能会显示旧的 `physicalHost` 虚拟机元数据

遇到主机错误或使用 report faulty host API将计算实例移至新主机后，当您查询元数据服务器时，它可能会显示计算实例之前主机的 physicalHost 元数据。

如需解决此问题，请执行以下任一操作：

使用 instances.get 方法或 gcloud compute instances describe 命令检索正确的 physicalHost 信息。
停止实例，然后启动实例。此过程会更新元数据服务器中的 physicalHost 信息。
等待 24 小时，以便更新受影响实例的 physicalHost 信息。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2026-07-06。