报告有故障的主机

如果您发现预留的 H4D 虚拟机上存在无法通过其他方式解决的问题（例如 RDMA 设备出现持续性错误），建议您将相应主机报告为有故障。当您将宿主机报告为有故障时，Compute Engine 会将该宿主机报告为有故障，然后通过运行宿主机维护来自动修复虚拟机。对于 H4D 虚拟机，Compute Engine 会在维护开始时尝试将虚拟机迁移到其他主机，这有助于最大限度地减少工作负载的停机时间。

本文档介绍了如何报告和修复基于虚拟机的集群中的虚拟机 (VM) 实例的故障主机。对于 Google Kubernetes Engine (GKE) 集群，请参阅通过 GKE 报告故障主机。

限制

报告故障主机时，需要遵守以下限制：

只有当在主机上运行的虚拟机满足以下所有条件时，您才能报告主机故障：
- 虚拟机正在运行。
- 虚拟机使用 H4D 机器类型。
- 虚拟机使用受预留约束的预配模型。
  
  注意：如果正在运行的 H4D 虚拟机使用其他预配模型，但您仍想报告其主机存在故障，请与您的客户服务团队联系。
Google Cloud 会尽力满足您报告主机故障的所有请求。不过，由于容量限制或速率限制，请求可能并不总是能够得到满足。

准备工作

Select the tab for how you plan to use the samples on this page:
Console

When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
gcloud

In the Google Cloud console, activate Cloud Shell.

Activate Cloud Shell

At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.
REST

如需在本地开发环境中使用本页面上的 REST API 示例，请使用您提供给 gcloud CLI 的凭证。
如需了解详情，请参阅 Google Cloud 身份验证文档中的使用 REST 时进行身份验证。

所需的角色

如需获得报告故障主机所需的权限，请让您的管理员为您授予以下 IAM 角色：

针对虚拟机或项目的 Compute Instance Admin (v1) (roles/compute.instanceAdmin.v1)
使用 Cloud Logging 查看故障主机报告操作的状态：针对项目的 Logs Viewer (roles/logging.viewer) 角色

如需详细了解如何授予角色，请参阅管理对项目、文件夹和组织的访问权限。

这些预定义角色包含报告故障主机所需的权限。如需查看所需的确切权限，请展开所需权限部分：

所需权限

如需报告故障主机，您必须具备以下权限：

创建有故障的主机报告：针对虚拟机的 compute.instances.update 权限
使用 Logging 查看操作列表：针对项目的 logging.operations.list 权限
使用 Logging 查看操作的详细信息：针对项目的 logging.operations.get 权限
查看 Compute Engine 中的操作列表：针对项目的 compute.zoneOperations.list 权限
查看 Compute Engine 中某项操作的详细信息：针对项目的 compute.zoneOperations.describe 权限

您也可以使用自定义角色或其他预定义角色来获取这些权限。

了解有故障的主机报告流程

为 H4D 虚拟机报告故障主机后，H4D 虚拟机的重启时间会因您用于创建虚拟机的预留的预留运行模式而异。如需验证预留的预留运行模式，请查看预留中的 reservationOperationalMode 字段。

托管模式 (HIGHLY_AVAILABLE_CAPACITY)

支持的机器类型 H4D

故障主机报告 API 速率限制对 API 的调用可能会受到速率限制。

有故障的主机报告流程

	托管模式 (`HIGHLY_AVAILABLE_CAPACITY`)
支持的机器类型	H4D
故障主机报告 API 速率限制	对 API 的调用可能会受到速率限制。
有故障的主机报告流程	当您为以受管模式运行的 H4D 虚拟机报告故障主机时，会发生以下情况：报告故障主机：在整个报告操作期间，虚拟机将保持 `RUNNING` 状态，该操作通常需要 10-12 分钟才能完成。如需查看操作状态，请参阅本文档中的查看报告故障主机操作。开始修复主机：在报告故障主机操作完成后，主机修复操作会在 1 分钟内开始。当修复主机操作开始时，虚拟机会停止运行，其状态会根据为虚拟机指定的自动重启 (`automaticRestart`) 设置而发生变化：如果为虚拟机启用了自动重启，则虚拟机的状态会更改为 `REPAIRING`。当虚拟机的主机健康状况良好时，该虚拟机会自动重启，除非您在此之前停止了该虚拟机。如果为虚拟机停用了自动重启，则虚拟机的状态会更改为 `TERMINATED`。在虚拟机的主机恢复正常后，您需要手动重启虚拟机。修复故障主机可能需要 3-14 天，有时甚至更长时间。迁移并重启虚拟机：在主机修复操作开始（通常需要 10-12 分钟）后，Compute Engine 会尝试预留一个额外的宿主机来替换您在预留容量中报告的故障宿主机。如果 Compute Engine 找到健康的主机（成功替换故障主机或在预留容量中找到匹配的健康主机），则会将虚拟机迁移到该主机。然后，通过以下方式之一重启虚拟机：如果虚拟机处于 `REPAIRING` 状态，并且在修复完成之前或完成时资源可用，则 Compute Engine 会在健康状况良好的主机上自动重启虚拟机。否则，如果虚拟机处于 `TERMINATED` 状态，或者在修复完成之前或完成时资源不可用，则虚拟机的状态将保持为 `TERMINATED` 或更改为 `TERMINATED`。您必须在需要时手动重启虚拟机。不过，如果您在重启虚拟机时没有可用的资源，则重启可能会失败；例如，如果其他虚拟机已在使用修复后的主机，则可能会发生这种情况。

当您为以受管模式运行的 H4D 虚拟机报告故障主机时，会发生以下情况：

报告故障主机：在整个报告操作期间，虚拟机将保持 RUNNING 状态，该操作通常需要 10-12 分钟才能完成。如需查看操作状态，请参阅本文档中的查看报告故障主机操作。
开始修复主机：在报告故障主机操作完成后，主机修复操作会在 1 分钟内开始。
当修复主机操作开始时，虚拟机会停止运行，其状态会根据为虚拟机指定的自动重启 (automaticRestart) 设置而发生变化：
- 如果为虚拟机启用了自动重启，则虚拟机的状态会更改为 REPAIRING。当虚拟机的主机健康状况良好时，该虚拟机会自动重启，除非您在此之前停止了该虚拟机。
- 如果为虚拟机停用了自动重启，则虚拟机的状态会更改为 TERMINATED。在虚拟机的主机恢复正常后，您需要手动重启虚拟机。
修复故障主机可能需要 3-14 天，有时甚至更长时间。
迁移并重启虚拟机：在主机修复操作开始（通常需要 10-12 分钟）后，Compute Engine 会尝试预留一个额外的宿主机来替换您在预留容量中报告的故障宿主机。如果 Compute Engine 找到健康的主机（成功替换故障主机或在预留容量中找到匹配的健康主机），则会将虚拟机迁移到该主机。然后，通过以下方式之一重启虚拟机：
- 如果虚拟机处于 REPAIRING 状态，并且在修复完成之前或完成时资源可用，则 Compute Engine 会在健康状况良好的主机上自动重启虚拟机。
- 否则，如果虚拟机处于 TERMINATED 状态，或者在修复完成之前或完成时资源不可用，则虚拟机的状态将保持为 TERMINATED 或更改为 TERMINATED。您必须在需要时手动重启虚拟机。不过，如果您在重启虚拟机时没有可用的资源，则重启可能会失败；例如，如果其他虚拟机已在使用修复后的主机，则可能会发生这种情况。