托管式实例组 (MIG) 可自动创建、配置和管理一组虚拟机的生命周期。MIG 具有以下优势:通过自动修复和区域(多可用区)部署实现高可用性;自动伸缩以处理可变负载;以及简化应用的滚动更新。 如需了解详情,请参阅托管式实例组。
您可以使用 MIG 为 TPU 版本 v5p 及更高版本创建和管理 TPU 虚拟机。 您可以创建具有单个 TPU 虚拟机的 MIG、独立的 TPU 虚拟机(也称为单主机切片)以及具有互连 TPU 虚拟机的 MIG(也称为多主机切片)。
单主机 MIG 中的每个切片最多有一个 TPU 虚拟机。MIG 中的 TPU 虚拟机不会通过芯片间互连 (ICI) 链接连接。
多主机切片包含多个通过 ICI 链接互连的 TPU 虚拟机。
具有单个 TPU 虚拟机实例的 MIG
您可以通过将 MIG 的目标大小设置为 1,使用 MIG 创建和管理单个 TPU 虚拟机。如果您想对单个实例使用自动修复等 MIG 功能,此方法非常有用。如需了解详情,请参阅 创建具有单主机 TPU 切片的 MIG。
具有单主机 TPU 切片的 MIG
对于需要多个独立 TPU 虚拟机但不需要通过 ICI 链接互连以实现分布式工作负载的工作负载,创建具有多个独立 TPU 实例的代管式实例组 (MIG) 非常有益。例如:
- 推理服务:MIG 中的每个虚拟机都可以独立处理推理 请求。借助 MIG,您可以根据需求扩缩服务实例的数量,并将其作为一组进行管理。
- 并行独立任务:MIG 提供了一种管理许多小型 独立训练作业或其他计算的方法,这些作业或计算可以在 单个 TPU 虚拟机上并行运行。
- 管理:MIG 提供以下功能:
- 部署:定义一次实例模板,然后使用 MIG 创建 多个相同的 TPU 虚拟机。
- 可扩缩性:通过调整 MIG 的大小来调整 TPU 虚拟机的数量。
- 滚动更新:以 受控方式更新所有虚拟机中的软件或机器类型。
- 经济高效:对于不需要大型 TPU 切片的全部功能或 互连性的任务,使用多个较小的独立 TPU 切片可能更经济高效。
如需了解详情,请参阅创建具有单主机 TPU 切片的 MIG。
具有多主机切片的 MIG
与独立 TPU 切片组不同,为多主机切片配置的 MIG 管理一组通过 ICI 链接紧密耦合的 TPU 虚拟机。这会创建一个单一的逻辑 TPU 切片。
优势和性能
适用于多主机 TPU 切片的 MIG 可提供密集型机器学习工作负载所需的规模和性能。
- 分布式训练:训练机器学习模型通常需要比单个 TPU 虚拟机所能提供的更多的 TPU 算力。较大的 TPU 切片可在许多 TPU 芯片和虚拟机之间分配计算,ICI 链接可实现它们之间的快速通信。这对于训练性能至关重要。
- 高互连带宽:与标准数据中心 网络 (DCN) 相比,ICI 网络在切片中的 TPU 芯片之间提供更高的带宽和 更低的延迟时间。这对于大型模型训练中常见的同步操作至关重要。
原子生命周期操作
为确保互连拓扑的完整性,MIG 在整个生命周期内将整个切片作为单个不可分割的单元进行管理。
- 创建:切片中的所有虚拟机都会一起预配。如果整个请求的拓扑没有足够的健康互连容量,则不会创建切片。
- 删除:MIG 会将整个切片作为一个单元进行删除。
- 调整大小:调整大小仅限于从 0 扩伸缩到完整切片大小, 或从完整切片大小缩减回 0。您无法部分调整多虚拟机切片的大小。
配置要求
配置多主机 MIG 需要定义物理互连拓扑和各个实例属性。
- 工作负载政策:您必须指定包含
accelerator-topology参数(例如 4x4、8x8 或 4x4x4)的工作负载政策。这会将 MIG 配置为将实例视为单个互连切片。 如需了解拓扑,请参阅 TPU 拓扑。 - 实例模板:定义切片中每个虚拟机的属性,例如机器类型、磁盘映像和 其他设置。
Slice 可用性和故障恢复
当您使用 MIG 创建多主机 TPU 切片时,MIG 会自动管理切片恢复过程。如果发生主机或 ICI 故障,则切片会转换为 REACTIVATING 状态。切片中的所有虚拟机都将转换为 REPAIRING 状态,但并非一定同时转换。然后,MIG 会自动在健康容量上一起重启虚拟机,以恢复切片。
但是,当您使用 Spot 虚拟机时,抢占会导致实例被终止。MIG 不会自动重新激活切片。
从实例中断中恢复故障
如果您删除或停止 TPU 实例,或者从操作系统内停止实例,则切片将转换为 FAILED 状态。在这种情况下,切片会一直处于 FAILED 状态,直到您重新创建切片。
如需重新创建切片,您必须删除并重新创建 MIG,或者将 MIG 的大小调整为 0,然后增加其大小。
如需详细了解切片状态,请参阅 查看 TPU 切片的状态。
限制
以下部分介绍了创建具有 TPU 虚拟机的 MIG 的限制。
实例模板的限制
指定 TPU 机器类型的实例模板具有以下限制:
使用预留绑定预配模型时,您必须将实例终止操作设置为“删除”。
TPU 只能使用 专门针对它的预留。
您无法指定布置政策。
使用实例模板为多主机 TPU 切片创建 MIG 时, 您无法通过将
scheduling.automaticRestart字段设置为false来停用 自动重启 。此限制适用于标准、灵活启动和预留绑定预配模型。
MIG 的限制
具有 TPU 的 MIG 具有以下限制:
生命周期操作:您无法停止、启动、恢复或暂停 TPU 实例。如需更改需要重启的配置或停止产生费用,您必须删除实例。
区域级 MIG 可用区分布:您必须将 目标分布形状设置为
ANY_SINGLE_ZONE。MIG 中的配置更新:
- 由于定义了加速器拓扑,您无法更新构成多主机 TPU 切片的 MIG。
- 您可以使用
自动或选择性方法更新构成单主机 TPU 切片的 MIG。
但是,单主机 TPU 切片的更新不支持重启 (
RESTART) 操作。如果需要重启,并且允许的最具中断性的操作是替换 (REPLACE),则更新程序将替换实例;否则,更新尝试将失败并显示错误。
对于构成多主机 TPU 切片的 MIG,还存在以下限制:
目标大小政策:您必须将目标大小政策模式设置为
BULK。设置此模式后,您无法更改它。目标大小:在批量模式下,您可以将目标大小设置为
0或 构成加速器拓扑所需的实例数。工作负载政策:您必须指定在其中定义了 加速器拓扑的工作负载政策。设置工作负载政策后,您无法更改或从 MIG 中移除该政策。
不支持的功能:具有 TPU 的 MIG 不支持以下 功能: