紧凑布置政策和工作负载政策概览

本文档简要介绍了紧凑布置政策和工作负载政策,并对二者进行了比较。这两种政策都允许您配置 Compute Engine 实例的放置位置,以最大限度地缩短网络延迟时间。

默认情况下,您只能通过指定计算实例的可用区来管理其位置。当您使用未来预留或代管式实例组 (MIG) 调整大小请求来获取 A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)机器时,您获得的计算实例是密集共置的。不过,您可能希望将特定的计算实例放置得更近,以优化实例间的性能。如需将计算实例布置得更紧凑,您可以将紧凑布置政策应用于计算实例,或将工作负载政策应用于 MIG。

计算实例的紧凑布置政策

当您将紧凑布置政策应用于独立计算实例或批量创建的计算实例时,Compute Engine 会尽力创建尽可能彼此靠近的计算实例。如果您的应用要求网络延迟时间尽可能短,请在创建紧凑布置政策时指定 maxDistance 字段(预览版)。

如需了解详情,请参阅 Compute Engine 文档中的紧凑布置政策简介

MIG 的工作负载政策

将工作负载政策应用于 MIG 时,您可以为 MIG 中的计算实例指定布置和底层基础架构。将工作负载政策与 A4X Max、A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)搭配使用,可最大限度地减少计算实例之间的网络延迟,并优化性能。

根据 MIG 中的计算实例使用的机器类型,在以下情况下,工作负载政策是必需的或可选的:

  • 如需部署 A4X Max 或 A4X 实例的子块,必须使用工作负载政策。

  • 如需使用 A4、A3 Ultra、A3 Mega 或 A3 High(8 个 GPU)实例,工作负载政策是可选的。

如需了解详情,请参阅 Compute Engine 文档中的 MIG 中的工作负载政策简介

紧凑布置政策与工作负载政策的比较

下表总结了紧凑放置政策与工作负载政策之间的区别:

紧凑布置政策 工作负载政策
政策使用情况
  • 独立实例
  • 使用 Bulk API 部署的实例
托管实例组 (MIG)
支持的机器类型 A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High、A3 Edge、A2 和 G2
  • 对于灵活启动:A4 和 A3 Ultra
  • 对于 Spot 或预留:A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)
分组语义

Compute Engine 会将使用同一紧凑布置政策的实例布置得更靠近。

我们建议您为每个工作负载使用不同的放置政策。在运行不同工作负载的实例之间重复使用布置政策会导致所有这些实例放置在一起。 这种共置可能会导致在横向扩容特定工作负载时难以创建彼此靠近的实例。

Compute Engine 会将使用工作负载政策的 MIG 中的实例布置得更靠近。

在运行不同工作负载的多个 MIG 中重复使用工作负载政策会将各个 MIG 中的实例放置在一起。重用非常适合大型训练模型,在这些模型中,每组实例都必须彼此隔离。

计算实例同位群组配置

如需尽最大努力实现计算实例的同位,请将 groupPlacementPolicy.collocation 字段设置为 COLLOCATED

如需尽力实现计算实例的同位,请将 workloadPolicy.type 字段设置为 HIGH_THROUGHPUT

其他配置
  • 如需严格放置计算实例,请指定 maxDistance 字段。
  • 对于支持分区的 GPU 系列(例如 A4X),请指定 gpuTopology 字段。
  • 如需严格放置计算实例,请指定 maxTopologyDistance 字段。
  • 对于支持分区的 GPU 系列(例如 A4X),请指定 acceleratorTopology 字段。

距离上限值比较

较低的距离上限值可确保计算实例布置更靠近,但也会增加部分计算实例创建失败的概率。

下表显示了每个距离上限值支持的机器系列和计算实例数量:

maxDistance 在紧凑布置政策中 工作负载政策中的 maxTopologyDistance 说明 支持的机器系列 计算实例数上限
未指定(不推荐) 未指定(不推荐) Compute Engine 会尽力尝试将计算实例布置得尽可能彼此靠近,但计算实例之间没有距离上限。 A4X Max、A4X、A4、A3 Ultra、A3 Mega、A3 High(8 个 GPU) 1500
3 CLUSTER Compute Engine 会在相邻块中创建计算实例。 A4 1,500
2 BLOCK Compute Engine 会在同一块中创建计算实例。 A4 和 A3 Ultra
  • 对于 A4 实例:150
  • 对于 A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)实例:256
1 SUBBLOCK Compute Engine 会在同一子块中创建计算实例。 A4 和 A3 Ultra 22

后续步骤