A4X Max、 A4X、A4、 A3 Ultra、A3 Mega、 和 A3 High(8 个 GPU)机器系列旨在让您能够 运行大规模人工智能 (AI) 和机器学习 (ML) 集群 ,并提供以下集群管理功能:
AI 基础设施资源托管
当您使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)时,可以请求 主机机器,Compute Engine 会将这些机器布置得尽可能靠近。这些机器提供以下功能:
Compute Engine 会以 资源块的形式预配机器。
动态机器学习 (ML) 网络结构 将这些机器互连。
这种资源安排可最大限度地减少网络跃点,并针对最短网络延迟时间进行优化。如需详细了解如何获取容量来部署密集分配的加速器优化机器块,请参阅 容量概览。
集群拓扑感知布置
使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)机器类型创建计算实例后,您可以在节点和集群级别获取拓扑信息。这些信息可帮助您执行以下操作:
调整应用或工作负载设计,以进一步缩短网络延迟时间。
了解并排查经常相互通信的实例的网络延迟和性能问题。如果实例意外地相距很远,则可能会出现这些问题。
如需了解详情,请参阅 查看计算实例拓扑。
集群运行模式
当您预留容量以使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)机器类型创建计算实例或集群时,您预留的机器类型决定了实例的集群运行模式。 此模式指定了您的 实例在 主机错误或 故障主机报告后的行为方式。实例的可用运行模式包括: 托管模式,其中 Compute Engine 会自动替换任何故障 机器,但会保留部分预留容量,以帮助确保实例拥有重启所需的资源。或者,所有容量模式,您 可以使用预留的全部容量,但需要负责管理 故障和计划内维护。
如需了解详情,请参阅 预留运行模式。
集群维护调度和控制
您可以在资源块中使用感知拓扑的调度来控制 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)机器的维护。此功能有助于同步升级,从而使工作负载更能应对主机事件,并最大限度地减少中断。此方法有助于提高工作负载的 有效吞吐量。
为了便于您完全控制维护事件,您可以使用以下功能:
维护调度类型
当您预留容量以创建 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)机器的计算实例或集群时,您可以定义 Compute Engine 如何维护实例运行的基础设施。根据您要用于实例的 机器类型,您可以选择跨实例同步维护(分组),或 选择不同的维护时间表(独立)。
如需了解详情,请参阅 维护调度类型。
管理主机活动
创建 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)实例并启动工作负载后,您可以设置提醒,以便在实例或预留块的维护安排、开始或完成时收到通知。您还可以查看实例或预留块的维护时间,并在预定时间之前手动启动维护(如果需要)。 这些选项可帮助您主动控制工作负载的停机时间并将其降至最低。
详情请参阅以下内容:
集群监控和诊断工具
为了便于监控和问题排查,A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)机器包含以下服务:
虚拟机健康状况下降预测, 可帮助您识别可能在未来 5 小时内健康状况下降的虚拟机。
故障主机报告, 您可以使用该服务标记单个主机的问题。
支持 Cloud Monitoring 指标, 可帮助您监控网络和 GPU 性能。