处理 GPU 主机维护事件

本文档介绍了如何在维护事件期间最大限度地减少对 GPU 工作负载的干扰。

如需了解如何使用 Cluster Director 监控、规划和执行虚拟机 (VM) 实例的预定维护，请改为参阅跨虚拟机管理主机事件。

当 Compute Engine 对挂接了图形处理单元 (GPU) 的虚拟机执行维护时，您必须停止该虚拟机。这是因为挂接了 GPU 的虚拟机无法实时迁移。

您必须将这些虚拟机设置为因主机维护事件而停止。您可以将已停止的虚拟机设置为在维护事件完成后自动重启。

主机维护事件通常每两周发生一次，但有时可能会更频繁地发生。

在维护事件之前收到预先通知

您可以监控虚拟机 (VM) 实例的维护计划，并准备好工作负载以便在系统重启时进行某种转换。

如需接收主机事件提前通知，请监控 /computeMetadata/v1/instance/maintenance-event 元数据值。如果对元数据服务器的请求返回 NONE，则表示虚拟机未安排终结。例如，从虚拟机中运行以下命令：

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

如果元数据服务器返回 TERMINATE_ON_HOST_MAINTENANCE，则表示您的虚拟机已安排终结。GPU 虚拟机会提前一小时收到来自 Compute Engine 的终结通知，而普通虚拟机只会在终结前 60 秒收到通知。

您可以使用这些通知来配置应用，以便在宿主机维护事件期间进行转换。例如，请参阅本文档中的将临时数据从本地 SSD 磁盘迁移出去。

由于本地 SSD 数据持久性，每当 Compute Engine 因主机维护事件而停止虚拟机时，挂接到虚拟机的任何本地 SSD 磁盘上的数据都不可恢复。如果您想帮助防止数据丢失，请配置工作负载，以便在虚拟机停止之前将数据从本地 SSD 磁盘迁移出去。例如，您可以使用以下方法之一：