MIG 中的工作负载政策简介

本文档介绍了将工作负载政策与托管式实例组 (MIG) 搭配使用时适用的要求和限制。默认情况下,您可以只通过指定 Compute Engine 实例的可用区来管理其位置。借助工作负载政策,您可以定义计算实例在可用区内的物理布置和拓扑。例如,这种方法有助于您将计算实例放置得彼此靠近,从而最大限度地缩短计算实例之间的网络延迟时间。

您只能将工作负载政策应用于使用 A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 个 GPU)或 H4D 实例的 MIG。如果您使用的是 A4X Max 或 A4X 实例,则必须使用工作负载政策,除非您是出于测试目的而创建单个计算实例。对于其他受支持的机器系列,工作负载政策是可选的。

如需控制使用其他机器系列的计算实例的布置,请使用 布置政策

了解工作负载政策

以下部分介绍了工作负载政策使用场景以及您在创建工作负载政策时指定的属性。

管理计算实例布置和拓扑

创建工作负载政策并将其应用于 MIG 后,工作负载政策可帮助您实现以下目标:

  • 创建彼此靠近的计算实例:如果容量可用, Compute Engine 会创建彼此靠近的计算实例。 否则,Compute Engine 只会创建部分或不创建您请求的计算实例。

  • 了解计算实例拓扑:将类型为高吞吐量 (HIGH_THROUGHPUT) 的工作负载政策应用于 MIG 且 MIG 创建计算实例后,您可以查看计算实例彼此之间的位置。此信息有助于您最大限度地缩短网络延迟时间并排查错误。如需了解详情,请参阅 查看 Compute Engine 实例拓扑

您可以将同一工作负载政策应用于多个 MIG。这样做时,Compute Engine 会将布置规则独立应用于每个 MIG。

以下部分介绍了您在创建工作负载政策时必须指定的属性。

配置工作负载政策属性

创建工作负载政策时,您必须指定以下属性:

  • 工作负载类型 (type) :此字段定义了集群的高级目标。您只能指定 HIGH_THROUGHPUT,该值会指示 Compute Engine 将计算实例放置得尽可能靠近,以加快通信速度。

  • 根据 MIG 中的计算实例使用的机器系列,您可以选择指定以下属性之一:

    • 加速器拓扑 (acceleratorTopology) :此属性有助于您为在多个 A4X Max 或 A4X 实例上运行的分布式工作负载实现高性能,这些实例使用专门的加速器间网络配置。如需了解详情,请参阅 加速器拓扑属性

    • 拓扑距离上限 (maxTopologyDistance) :此属性为创建 A4、A3 Ultra、A3 Mega、A3 High(8 个 GPU)或 H4D 实例定义了最严格的物理边界,例如同一块或子块。如果 Compute Engine 因资源可用性错误而无法满足此严格限制,则只会创建部分或不创建您请求的计算实例。如需了解详情,请参阅 拓扑距离上限属性

加速器拓扑属性

为了实现大规模的无阻塞网络性能,Compute Engine 会将 A4X Max 和 A4X 实例组织成 子块的物理层次结构。

如需创建包含 A4X Max 或 A4X 实例的 MIG,您必须将工作负载政策应用于该 MIG,该政策指定了加速器拓扑 (acceleratorTopology) 属性。此属性定义了计算实例 切片 的物理网络配置。切片充当单个大型加速器,可为分布式 AI 或 ML 工作负载提供最大吞吐量。

下表显示了工作负载政策支持的加速器拓扑值以及它们支持的机器系列:

加速器拓扑值 说明 支持的机器系列 计算实例数量上限
1x72 Compute Engine 将计算实例组织成密集分配的子块,每个子块包含 18 个计算实例,总共 72 个 GPU。由于每个子块都需要自己的 MIG,因此每个 MIG 最多可以创建 18 个计算实例。一个完整的块包含 25 个 MIG,总共 450 个计算实例。 A4X Max 和 A4X 18

如需详细了解 A4X Max 和 A4X 实例,请参阅 A4X Max 和 A4X 机器系列

拓扑距离上限属性

当您创建工作负载政策并将其应用于 MIG 时,Compute Engine 会尽力将计算实例放置得彼此靠近。如果您需要在可用区内实现最大紧凑性,建议您指定拓扑距离上限 (maxTopologyDistance) 属性。拓扑距离上限值指定在同一 集群子块中创建 A4、A3 Ultra、A3 Mega、A3 High(8 个 GPU)或 H4D 实例。

下表显示了拓扑距离上限值及其支持的机器系列:

拓扑距离上限值 说明 支持的机器系列 计算实例数量上限
未指定(不推荐) Compute Engine 会尽力将计算 实例放置得尽可能靠近,但不会保证可用区内计算实例之间的最大距离。 A4、A3 Ultra、A3 Mega、A3 High(8 个 GPU)和 H4D 1,500
CLUSTER Compute Engine 会在集群内的相邻块中创建计算实例 。 A4 和 H4D 1,500
BLOCK Compute Engine 会在同一 块中创建计算实例。 A4、A3 Ultra、A3 Mega、A3 High(8 个 GPU)或 H4D
  • 对于 A4 或 H4D:150
  • 对于 A3 Ultra、A3 Mega 或 A3 High(8 个 GPU): 256
SUBBLOCK Compute Engine 会在同一 子块中创建计算实例,并尽可能缩短网络延迟时间。 A4、A3 Ultra 和 H4D 22

价格

创建、删除 MIG 或将工作负载政策应用于 MIG 不会产生任何额外费用。

限制

对于 MIG 中的工作负载政策,存在以下限制:

  • 仅当 MIG 中没有计算实例时,您才能将工作负载政策应用于现有 MIG 或更改其工作负载政策。

  • 您只能将工作负载政策应用于包含使用以下机器类型和预配模型组合的计算实例的 MIG:

    机器系列 预配模型
    A4、A3 Ultra 和 H4D 灵活启动
    A4、A3 Ultra、A3 Mega、A3 High(8 个 GPU)和 H4D Spot
    A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 个 GPU)和 H4D 受预留约束
  • 只有当区域级 MIG 使用以下 分布目标形状 时,您才能将工作负载政策应用于这些 MIG

    • 对于具有目标大小的 MIGANYANY_SINGLE_ZONE

    • 对于 MIG 规模调整请求ANY_SINGLE_ZONE

  • 创建工作负载政策后,您无法对其进行更新。

  • 如果 MIG 使用工作负载政策,则无法配置第二个实例模板。

  • 您无法将工作负载政策与布置政策搭配使用。

后续步骤