TPU Cluster Director 概览

TPU Cluster Director 旨在让您基于预留直接控制 Google Cloud AI 加速器。对于 Cloud TPU,Cluster Director 的基础功能提供了一个新的服务层级,该层级不仅提供多租户产品,还提供物理隔离的 TPU 容量:

  • 专用且物理位置相同的容量:我们现在提供密集且位置相同的 TPU 预留,让您可以完全控制硬件,从而实现最佳网络性能和工作负载调度。
  • 高级维护和控制:您可以精确控制维护事件,能够定位特定的虚拟机、立方体、Pod 或整个预留,并管理这些事件的顺序和节奏,以最大限度地减少对业务的影响。
  • 拓扑感知型调度:您可以全面了解硬件的物理拓扑、健康状况和利用率,从而实现更智能、以性能为导向的工作负载布置。

Cluster Director 基础与 Google Kubernetes Engine 完全集成。此集成提供了多项功能,可增强大规模 AI 工作负载:

  • 提高效率、容错能力和弹性 - 为要求严苛的 AI 任务提供强大的环境。
  • 拓扑感知型节点池和工作负载布置。- 位于同一位置的密集预留可让您定位特定 Pod 或立方体。这样可以实现更精细的工作负载调度。

借助 GKE 上的 Cluster Director 基础,您可以提高工作负载的利用率、性能和可伸缩性,提升有效吞吐量和可靠性,并全面观测物理容量(从主机一直到 GKE 集群)。

通过新的全容量模式预留,可使用 GKE 上的 TPU Cluster Director 基础。

全容量模式

以前,TPU 容量是通过“托管式”模式提供的,在这种模式下,Google 会自动替换任何有故障的 TPU 机器,但会保留部分预留容量,以帮助确保 TPU 切片具有重启所需的资源。Google 现在为 TPU 推出了一种新的容量模式,称为“全容量”模式。在此容量模式下,您可以全面了解已预留容量的 TPU 硬件拓扑、利用率状态和健康状态。您还可以使用预留的全部容量,但需要负责管理故障和计划内维护。

全容量模式的主要功能包括:

  • 完全控制和可见性:您可以完全控制已预留的容量,并全面了解硬件健康状况和拓扑。这意味着您可以查看所有可用容量(包括保留容量),并直接管理机器故障。
  • 专用容量:您可以访问始终可用于 AI 工作负载的专用容量。在容量已满且无保留的情况下,您可以获得更高的可预测性和更高的分配,这意味着您可以利用预留的全部 TPU 容量。现在,您还可以使用保留容量来运行优先级较低的工作负载。
  • 优化性能:TPU 全容量模式可将大型加速器资源与超低延迟网络密集共置,这对于大规模、紧密耦合的机器学习和 HPC 工作负载至关重要。该架构经过优化,可在训练和推理工作负载中实现最高性能。

支持的 TPU 世代

Trillium (tpu v6e)、TPU Ironwood (tpu7x) 和未来的 TPU 世代均支持 TPU 全容量模式和功能。我们暂不打算支持之前的 TPU 世代。

TPU Cluster Director 术语

Cluster Director 拓扑概念包含四个级层:集群子块主机。集群是以 Pod 倍数表示物理 TPU 容量的 Google 部署单元。一个集群中的所有 TPU 容量都位于一个可用区内。全容量模式下的 TPU 预留始终位于一个集群内。对于 TPU,其余拓扑概念与物理组件的对应关系如下表所示。

Trillium

拓扑概念 Trillium 核心数 芯片数 主机
--- 条状标签 1 1 不适用
主机 主机 8 8 1
子区块 Trillium Pod 256 256 32
预留中的多个 Trillium Pod(最多 16 个)

高达 4096 个

高达 4096 个

最高 512

--- 子块中允许的切片数 1x1、2x2、2x4、4x4、4x8、8x8、8x16 和 16x16
--- 一个预留可以包含多个块,每个块可以包含 1 到 16 个 Trillium Pod

如需详细了解 Trillium 切片大小,请参阅 Trillium 支持的配置

Ironwood

拓扑概念 Ironwood 核心数 芯片数 主机
--- 条状标签 2 1 ---
主机 主机 8 4 1
子块 立方体 128 64 16
多个 Ironwood 立方体,最多可达一个完整 Pod 最多 9216 个(144 个立方体) 高达 2304 个
--- 块中允许的切片:示例 1x1x1、2x2x1、2x2x2、2x4x4、4x4x4、8x8x8、16x8x8、16x16x8 和 12x24x24(以及更多)
--- 一个预留可以包含一个或多个 Ironwood 立方体,最多可包含一个完整的 Ironwood Pod。

如需详细了解 Ironwood 切片大小,请参阅 TPUv7x 支持的配置