报告有故障的主机

如果您发现 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High（8 个 GPU）实例上存在无法自行解决的问题，则可以将相应主机报告为有故障。此类问题的一个示例是集群内的性能变慢，或 GPU 温度持续偏高。

当您将主机报告为有故障时，Compute Engine 会通过运行主机维护来自动修复计算实例。

对于 A4 和 A3 Ultra 实例，如果您有未使用的预留容量或实例所在可用区中有可用容量，Compute Engine 会在维护开始时尝试将实例迁移到其他主机。将主机报告为有故障有助于最大限度地减少工作负载的停机时间。
对于 A3 Mega 和 A3 High 实例，Compute Engine 会停止实例，执行必要的主机修复，然后在同一主机上重启实例。

本文档介绍了如何报告和修复 Slurm 集群或其他基于计算实例的集群中的故障主机实例。如需报告 Google Kubernetes Engine (GKE) 集群中的故障主机，请参阅通过 GKE 报告故障主机。

限制

报告故障主机时，需要遵守以下限制：

只有当在主机上运行的计算实例满足以下所有条件时，您才能报告主机故障：
- 计算实例正在运行。
- 计算实例使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High（8 个 GPU）机器类型。
- 计算实例使用受预留约束的预配模型。
  
  注意：如果正在运行的 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High（8 个 GPU）实例使用其他预配模型，但您仍想报告其主机存在故障，请与您的客户服务团队联系。
如果您在 reportHostAsFaulty 操作正在进行时删除计算实例，则 reportHostAsFaulty 操作会失败。
Google Cloud 会尽力满足您报告主机故障的所有请求。不过，由于容量限制或速率限制，请求可能并不总是能够得到满足。

准备工作

Select the tab for how you plan to use the samples on this page:

Console

When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

gcloud

In the Google Cloud console, activate Cloud Shell.

Activate Cloud Shell

At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.

REST

如需在本地开发环境中使用本页面上的 REST API 示例，请使用您提供给 gcloud CLI 的凭证。

Install the Google Cloud CLI. After installation, initialize the Google Cloud CLI by running the following command:

gcloud init

If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

如需了解详情，请参阅 Google Cloud 身份验证文档中的使用 REST 时进行身份验证。

所需的角色

如需获得报告故障主机所需的权限，请让您的管理员为您授予以下 IAM 角色：

针对 Compute 实例或项目的 Compute Instance Admin (v1) (roles/compute.instanceAdmin.v1)
使用 Cloud Logging 查看故障主机报告操作的状态：针对项目的 Logs Viewer (roles/logging.viewer) 角色

如需详细了解如何授予角色，请参阅管理对项目、文件夹和组织的访问权限。

这些预定义角色包含报告故障主机所需的权限。如需查看所需的确切权限，请展开所需权限部分：

所需权限

如需报告故障主机，您必须具备以下权限：

创建有故障的主机报告：针对计算实例的 compute.instances.update 权限
使用 Logging 查看操作列表：针对项目的 logging.operations.list 权限
使用 Logging 查看操作的详细信息：针对项目的 logging.operations.get 权限
查看 Compute Engine 中的操作列表：针对项目的 compute.zoneOperations.list 权限
查看 Compute Engine 中某项操作的详细信息：针对项目的 compute.zoneOperations.describe 权限

您也可以使用自定义角色或其他预定义角色来获取这些权限。

了解有故障的主机报告流程

为计算实例报告故障主机后，计算实例的重启时间会因计算实例使用的预留中指定的预留运行模式而异。如需验证预留的预留运行模式，请查看预留中的 reservationOperationalMode 字段。下表总结了两种可用预留运行模式（全容量模式和受管模式）的故障主机进程。

全容量模式 (ALL_CAPACITY) 托管模式 (HIGHLY_AVAILABLE_CAPACITY)

支持的机器类型 A4X Max 和 A4X A4、A3 Ultra、A3 Mega 和 A3 High

故障主机报告 API 速率限制无速率限制。对 API 的调用可能会受到速率限制。

有故障的主机报告流程

	全容量模式 (`ALL_CAPACITY`)	托管模式 (`HIGHLY_AVAILABLE_CAPACITY`)
支持的机器类型	A4X Max 和 A4X	A4、A3 Ultra、A3 Mega 和 A3 High
故障主机报告 API 速率限制	无速率限制。	对 API 的调用可能会受到速率限制。
有故障的主机报告流程	当您为以全容量模式运行的计算实例报告故障主机时，会发生以下情况：报告故障主机：在整个报告故障主机操作期间，实例将保持 `RUNNING` 状态，该操作通常需要 10-12 分钟才能完成。如需查看操作状态，请参阅本文档中的查看报告故障主机操作。修复主机：在报告故障主机操作完成后，主机修复操作会在 1 分钟内开始。当修复主机操作开始时，实例会停止运行，其状态会根据为实例指定的自动重启 (`automaticRestart`) 设置而发生变化：如果为实例启用了自动重启，则实例的状态会更改为 `REPAIRING`。当实例的主机健康状况良好时，该实例会自动重启，除非您在此之前停止了该实例。如果为实例停用了自动重启，则实例的状态会更改为 `TERMINATED`。在实例的主机恢复正常后，您需要手动重启实例。修复故障主机可能需要 3-14 天，有时甚至更长时间。重启实例：在主机修复操作完成后（通常需要 3-14 天），会发生以下情况之一：如果实例处于 `REPAIRING` 状态，并且在修复完成时资源可用，则 Compute Engine 会在修复后的主机上自动重启实例。否则，如果实例处于 `TERMINATED` 状态，或者在修复完成时资源不可用，则实例的状态将保持为 `TERMINATED` 或更改为 `TERMINATED`。您必须在需要时手动重启实例。不过，如果您在重启实例时没有可用的资源，则重启可能会失败；例如，如果其他实例已在使用修复后的主机，则可能会发生这种情况。	当您为以受管模式运行的计算实例报告故障主机时，会发生以下情况：报告故障主机：在整个报告故障主机操作期间，实例将保持 `RUNNING` 状态，该操作通常需要 10-12 分钟才能完成。如需查看操作状态，请参阅本文档中的查看报告故障主机操作。开始修复主机：在报告故障主机操作完成后，主机修复操作会在 1 分钟内开始。当修复主机操作开始时，实例会停止运行，其状态会根据为实例指定的自动重启 (`automaticRestart`) 设置而发生变化：如果为实例启用了自动重启，则实例的状态会更改为 `REPAIRING`。当实例的主机健康状况良好时，该实例会自动重启，除非您在此之前停止了该实例。如果为实例停用了自动重启，则实例的状态会更改为 `TERMINATED`。在实例的主机恢复正常后，您需要手动重启实例。修复故障主机可能需要 3-14 天，有时甚至更长时间。迁移并重启实例：在主机修复操作开始（通常需要 10-12 分钟）后，Compute Engine 会尝试预留一个额外的宿主机来替换您在预留容量中报告的故障宿主机。如果 Compute Engine 找到健康的主机（成功替换故障主机或在预留容量中找到匹配的健康主机），则会将实例迁移到该主机。然后，通过以下方式之一重启实例：如果实例处于 `REPAIRING` 状态，并且在修复完成之前或完成时资源可用，则 Compute Engine 会在健康状况良好的主机上自动重启实例。否则，如果实例处于 `TERMINATED` 状态，或者在修复完成之前或完成时资源不可用，则实例的状态将保持为 `TERMINATED` 或更改为 `TERMINATED`。您必须在需要时手动重启实例。不过，如果您在重启实例时没有可用的资源，则重启可能会失败；例如，如果其他实例已在使用修复后的主机，则可能会发生这种情况。

当您为以全容量模式运行的计算实例报告故障主机时，会发生以下情况：

报告故障主机：在整个报告故障主机操作期间，实例将保持 RUNNING 状态，该操作通常需要 10-12 分钟才能完成。如需查看操作状态，请参阅本文档中的查看报告故障主机操作。
修复主机：在报告故障主机操作完成后，主机修复操作会在 1 分钟内开始。

当修复主机操作开始时，实例会停止运行，其状态会根据为实例指定的自动重启 (automaticRestart) 设置而发生变化：
- 如果为实例启用了自动重启，则实例的状态会更改为 REPAIRING。当实例的主机健康状况良好时，该实例会自动重启，除非您在此之前停止了该实例。
- 如果为实例停用了自动重启，则实例的状态会更改为 TERMINATED。在实例的主机恢复正常后，您需要手动重启实例。
修复故障主机可能需要 3-14 天，有时甚至更长时间。
重启实例：在主机修复操作完成后（通常需要 3-14 天），会发生以下情况之一：
- 如果实例处于 REPAIRING 状态，并且在修复完成时资源可用，则 Compute Engine 会在修复后的主机上自动重启实例。
- 否则，如果实例处于 TERMINATED 状态，或者在修复完成时资源不可用，则实例的状态将保持为 TERMINATED 或更改为 TERMINATED。您必须在需要时手动重启实例。不过，如果您在重启实例时没有可用的资源，则重启可能会失败；例如，如果其他实例已在使用修复后的主机，则可能会发生这种情况。

当您为以受管模式运行的计算实例报告故障主机时，会发生以下情况：

报告故障主机：在整个报告故障主机操作期间，实例将保持 RUNNING 状态，该操作通常需要 10-12 分钟才能完成。如需查看操作状态，请参阅本文档中的查看报告故障主机操作。
开始修复主机：在报告故障主机操作完成后，主机修复操作会在 1 分钟内开始。

当修复主机操作开始时，实例会停止运行，其状态会根据为实例指定的自动重启 (automaticRestart) 设置而发生变化：
- 如果为实例启用了自动重启，则实例的状态会更改为 REPAIRING。当实例的主机健康状况良好时，该实例会自动重启，除非您在此之前停止了该实例。
- 如果为实例停用了自动重启，则实例的状态会更改为 TERMINATED。在实例的主机恢复正常后，您需要手动重启实例。
修复故障主机可能需要 3-14 天，有时甚至更长时间。
迁移并重启实例：在主机修复操作开始（通常需要 10-12 分钟）后，Compute Engine 会尝试预留一个额外的宿主机来替换您在预留容量中报告的故障宿主机。如果 Compute Engine 找到健康的主机（成功替换故障主机或在预留容量中找到匹配的健康主机），则会将实例迁移到该主机。然后，通过以下方式之一重启实例：
- 如果实例处于 REPAIRING 状态，并且在修复完成之前或完成时资源可用，则 Compute Engine 会在健康状况良好的主机上自动重启实例。
- 否则，如果实例处于 TERMINATED 状态，或者在修复完成之前或完成时资源不可用，则实例的状态将保持为 TERMINATED 或更改为 TERMINATED。您必须在需要时手动重启实例。不过，如果您在重启实例时没有可用的资源，则重启可能会失败；例如，如果其他实例已在使用修复后的主机，则可能会发生这种情况。