Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

集群管理功能

A4X Max、 A4X、A4、 A3 Ultra、A3 Mega、和 A3 High（8 个 GPU）机器系列旨在让您能够运行大规模人工智能 (AI) 和机器学习 (ML) 集群，并提供以下集群管理功能：

AI 基础设施资源托管
集群拓扑感知布置
集群运行模式
集群维护调度和控制
集群监控和诊断工具

AI 基础设施资源托管

当您使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High（8 个 GPU）时，可以请求主机机器，Compute Engine 会将这些机器布置得尽可能靠近。这些机器提供以下功能：

Compute Engine 会以资源块的形式预配机器。
动态机器学习 (ML) 网络结构将这些机器互连。

这种资源安排可最大限度地减少网络跃点，并针对最短网络延迟时间进行优化。如需详细了解如何获取容量来部署密集分配的加速器优化机器块，请参阅容量概览。

集群拓扑感知布置

使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High（8 个 GPU）机器类型创建计算实例后，您可以在节点和集群级别获取拓扑信息。这些信息可帮助您执行以下操作：

调整应用或工作负载设计，以进一步缩短网络延迟时间。
了解并排查经常相互通信的实例的网络延迟和性能问题。如果实例意外地相距很远，则可能会出现这些问题。

如需了解详情，请参阅查看计算实例拓扑。

集群运行模式

当您预留容量以使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High（8 个 GPU）机器类型创建计算实例或集群时，您预留的机器类型决定了实例的集群运行模式。此模式指定了在主机错误或故障主机报告后实例的行为方式。实例可用的运行模式包括： 托管模式 __，其中 Compute Engine 会自动替换任何有故障的机器，但会保留部分预留容量，以帮助确保实例拥有重启所需的资源。或者，全容量模式，其中您可以访问预留的全部容量，但需要负责管理故障和计划内维护。

如需了解详情，请参阅预留运行模式。

集群维护调度和控制

您可以在资源块中使用感知拓扑的调度来控制 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High（8 个 GPU）机器的维护。此功能有助于同步升级，从而使工作负载更能应对主机事件，并最大限度地减少中断。此方法有助于提高工作负载的 有效吞吐量。

为了便于您完全控制维护事件，您可以使用以下功能：

维护调度类型
管理主机活动

维护调度类型

当您预留容量以创建 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High（8 个 GPU）机器的计算实例或集群时，您可以定义 Compute Engine 如何维护实例运行的基础设施。根据您要用于实例的机器类型，您可以选择跨实例同步维护（分组），或选择不同的维护时间表（独立）。

如需了解详情，请参阅维护调度类型。

管理主机活动

创建 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High（8 个 GPU）实例并启动工作负载后，您可以设置提醒，以便在实例或预留块的维护安排、开始或完成时收到通知。您还可以查看实例或预留块的维护时间，并在预定时间之前手动启动维护（如果需要）。这些选项可帮助您主动控制工作负载的停机时间并将其降至最低。

详情请参阅以下内容：

集群监控和诊断工具

为了便于监控和问题排查，A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High（8 个 GPU）机器包含以下服务：

虚拟机健康状况下降预测，可帮助您识别可能在未来 5 小时内健康状况下降的虚拟机。
故障主机报告，您可以使用该服务标记单个主机的问题。
支持 Cloud Monitoring 指标，可帮助您监控网络和 GPU 性能。