A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)机器系列旨在让您能够运行大规模人工智能 (AI) 和机器学习 (ML) 集群,并提供以下集群管理功能:
AI 基础架构资源同位
当您使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)时,可以请求 Compute Engine 将宿主机布置得尽可能靠近。这些机器具有以下功能:
Compute Engine 会以资源块的形式预配机器。
动态机器学习 (ML) 网络结构可将机器互连起来。
这种资源安排可最大限度地减少网络跃点,并针对最短网络延迟时间进行优化。如需详细了解如何获取容量来部署密集分配的加速器优化型机器块,请参阅容量概览。
集群拓扑感知布置
使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)机器类型创建计算实例后,您可以获取节点级和集群级拓扑信息。这些信息可帮助您执行以下操作:
调整应用或工作负载设计,以进一步缩短网络延迟时间。
了解并排查经常相互通信的实例的网络延迟和性能问题。如果实例意外地相距很远,则可能会出现这些问题。
如需了解详情,请参阅查看计算实例拓扑。
集群运行模式
当您预留容量以使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)机器类型创建计算实例或集群时,您预留的机器类型决定了实例的集群运行模式。此模式用于指定实例在发生主机错误或收到故障主机报告后的行为。实例的可用运行模式包括托管模式,在此模式下,Compute Engine 会自动替换任何故障机器,但会保留部分预留容量,以帮助确保实例拥有重启所需的资源。或者全部容量模式,您可以使用预留的全部容量,但需要负责管理故障和计划内维护。
如需了解详情,请参阅预留运行模式。
集群维护调度和控制
您可以在资源块中使用感知拓扑的调度来控制 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)机器的维护。此功能有助于同步升级,从而使工作负载更能应对主机事件,并最大限度地减少中断。此方法有助于提高工作负载的有效吞吐量。
为了便于您完全控制维护事件,您可以使用以下功能:
维护调度类型
在预留容量以创建 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)机器的计算实例或集群时,您可以定义 Compute Engine 如何维护实例运行的基础设施。您可以根据要用于实例的机器类型,选择在实例之间同步维护(分组),或采用不同的维护时间表(独立)。
如需了解详情,请参阅维护安排类型。
管理主机活动
创建 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)实例并启动工作负载后,您可以设置提醒,以便在实例或预留块的维护安排、开始或完成时收到通知。您还可以查看实例或预留块的维护时间,并在预定时间之前手动启动维护(如果需要)。这些选项可帮助您主动控制工作负载的停机时间并将其降至最低。
详情请参阅以下内容:
集群监控和诊断工具
为了便于监控和问题排查,A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)机器包含以下服务:
虚拟机运行状况降级预测,可帮助您识别可能在未来 5 小时内降级的虚拟机。
故障主机报告,您可以使用该服务标记单个主机的问题。
支持 Cloud Monitoring 指标,可帮助您监控网络和 GPU 性能。