紧凑布置政策和工作负载政策概览

本文档简要介绍了紧凑布置政策和工作负载政策,并对二者进行了比较。这两种政策都允许您配置虚拟机 (VM) 实例的放置位置,以尽可能缩短网络延迟时间。对于单独创建或批量创建的实例,请使用紧凑布置政策;对于托管式实例组 (MIG),请使用工作负载政策。

默认情况下,您只能通过指定虚拟机的可用区来管理其位置。如果您使用未来预留或灵活启动与 MIG 规模调整请求相结合的方式来获取 A4X、A4、A3 Ultra、A3 Mega 和 A3 High(配备 8 个 GPU)机器,则默认情况下,您获得的虚拟机资源会密集共置。不过,您可能希望将特定虚拟机布置得更靠近,以优化每个应用中的虚拟机间性能。为了将虚拟机布置得更紧凑,您可以将紧凑布置政策应用于虚拟机,或将高吞吐量工作负载政策应用于 MIG。

虚拟机的紧凑布置政策

当您将紧凑布置政策应用于虚拟机时,Compute Engine 会尽力尝试创建尽可能彼此靠近的虚拟机。如果您的应用对延迟时间敏感,并且您希望虚拟机尽可能靠近(紧凑性最大),请在创建紧凑布置政策时指定 maxDistance 字段(预览版)。

如需了解详情,请参阅 Compute Engine 文档中的紧凑布置政策简介

MIG 的工作负载政策

借助工作负载政策,您可以指定要在基础设施上运行的工作负载类型。您还可以指定底层基础架构的物理属性(例如虚拟机放置位置),以尽可能匹配指定的类型。

您可以为工作负载政策设置以下配置:

  • 工作负载类型 (type):对于高吞吐量 (high-throughput) 工作负载,Compute Engine 会尽最大努力将虚拟机放置得尽可能靠近。虚拟机放置位置取决于虚拟机的机器类型和可用区可用性。

  • 使用严格的虚拟机同位或加速器拓扑的额外要求。您可以指定以下任一值:

    • 严格的虚拟机同位 (maxTopologyDistance):实现精细的低延迟网络性能。严格的同位布置是指,除了尽力将虚拟机布置得尽可能彼此靠近之外,您还可以进一步指定虚拟机之间的最大距离。如果因容量限制而无法满足严格的同位共址要求,MIG 将不会创建虚拟机。

    • 虚拟机的加速器拓扑 (acceleratorTopology):为了让分布式工作负载在多个虚拟机上运行时实现高性能,这些虚拟机使用专门的加速器间网络配置,例如使用 NVLink 网域的 A4X 虚拟机。

紧凑布置政策与工作负载政策的比较

下表总结了紧凑放置政策与工作负载政策之间的区别:

紧凑布置政策 工作负载政策
搭配以下资源使用
  • 独立实例
  • 使用 Bulk API 部署的实例
托管实例组 (MIG)
支持的机器类型 所有 GPU 系列 A4X、A4、A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)
分组语义

Compute Engine 会将使用同一紧凑布置政策的实例布置得更靠近。

我们建议您为每个工作负载使用不同的放置政策。在运行不同工作负载的实例之间重复使用布置政策会导致所有这些实例放置在一起。这种并置可能会导致在横向扩缩特定工作负载时难以创建彼此靠近的实例。

Compute Engine 会将使用工作负载政策的 MIG 中的实例布置得更靠近。

在运行不同工作负载的多个 MIG 中重复使用工作负载政策会将各个 MIG 中的实例放置在一起。重用非常适合大型训练模型,在这些模型中,每组实例都必须彼此隔离。

虚拟机合设配置

对于尽力而为的虚拟机共置,请将 groupPlacementPolicy.collocation 字段设置为 COLLOCATED

对于尽力而为的虚拟机共置,请将 workloadPolicy.type 字段设置为 HIGH_THROUGHPUT

其他配置
  • 对于严格的虚拟机放置,请指定 maxDistance 字段。
  • 对于支持分区的 GPU 系列(例如 A4X),请指定 gpuTopology 字段。
  • 对于严格的虚拟机放置,请指定 maxTopologyDistance 字段。
  • 对于支持分区的 GPU 系列(例如 A4X),请指定 acceleratorTopology 字段。

比较距离上限值

较低的距离上限值可确保虚拟机布置更靠近,但也会增加部分虚拟机创建失败的概率。

下表显示了每个距离上限值支持的机器系列和虚拟机数量:

maxDistance 在紧凑放置政策中 工作负载政策中的 maxTopologyDistance 说明 支持的机器系列 虚拟机数量上限
未指定(不推荐) 未指定(不推荐) Compute Engine 会尽力尝试将虚拟机布置得尽可能彼此靠近,但虚拟机之间没有距离上限。 A4、A3 Ultra、A3 Mega、A3 High(8 个 GPU) 1500
3 cluster Compute Engine 会在相邻块中创建虚拟机。 A4 1,500
2 block Compute Engine 会在同一区块中创建虚拟机。 A4 和 A3 Ultra
  • 对于 A4 虚拟机:150
  • 对于 A3 Ultra、A3 Mega 和 A3 High(8 个 GPU)虚拟机:256

后续步骤