TPU7x (Ironwood)

本页面介绍了 TPU7x( Google Cloud上提供的最新 TPU)的架构和可用配置。TPU7x 是 Ironwood 系列中的首个版本,也是 Google Cloud的第七代 TPU。Ironwood 世代专为大规模 AI 训练和推理而设计。

TPU7x 的每个 Pod 有 9,216 个芯片,与 TPU v5p 有很多相似之处。TPU7x 可为大规模密集模型和 MoE 模型、预训练、采样和解码密集型推理提供高性能。

如需使用 TPU7x,您必须使用 Google Kubernetes Engine (GKE)。如需了解详情,请参阅 GKE 中的 TPU 简介

您还可以将 TPU7x 和 GKE 与 TPU Cluster Director 搭配使用。TPU Cluster Director 通过“所有容量”模式预留提供,可让您完全访问所有预留容量(无保留),并全面了解 TPU 硬件拓扑、利用率状态和健康状态。如需了解详情,请参阅“所有容量”模式概览

如需获取 TPU7x 访问权限,请与您的客户支持团队联系。

系统架构

每个 TPU7x 芯片包含两个 TensorCore 和四个 SparseCore。下表展示了 TPU7x 的主要规格及其值,并与之前几代进行了比较。

规范 v5p v6e (Trillium) TPU7x (Ironwood)
每个 pod 的芯片数量 8960 256 9216
每个芯片的峰值计算能力 (BF16) (TFLOPs) 459 918 2307
每个芯片的峰值计算能力 (FP8) (TFLOPs) 459 918 4614
每个芯片的 HBM 容量 (GiB) 95 32 192
每个芯片的 HBM 带宽 (GB/s) 2765 1638 7380
vCPU 的数量(4 芯片虚拟机) 208 180 224
RAM (GB)(4 芯片虚拟机) 448 720 960
每个芯片的 TensorCore 数量 2 1 2
每个芯片的 SparseCore 数量 4 2 4
每个芯片的双向芯片间互连 (ICI) 带宽 (GB/s) 1200 800 1200
每个芯片的数据中心网络 (DCN) 带宽 (Gb/s) 50 100 100

下图展示了 Ironwood 的架构:

Ironwood 架构图

双芯粒架构

借助 Ironwood 编程模型,您可以访问两个 TPU 设备,而不是之前几代(TPU v4 和 v5p)中使用的单个逻辑核心(也称为 MegaCore)架构。此变更可提高芯片制造的成本效益和效率。虽然这代表着架构的转变,但新设计可确保您只需进行少量更改即可重复使用现有的软件模型。

Ironwood TPU 由两个不同的芯粒组成。这与 MegaCore 架构的统一内存空间不同。

  • 芯粒构成:每个芯粒都是一个独立的单元,包含一个 TensorCore、两个 SparseCore 和 96 GB 的高带宽内存 (HBM)。

  • 高速互连:这两个芯粒通过裸片间 (D2D) 接口连接,该接口的速度是一维芯片间互连 (ICI) 链路的 6 倍。芯粒间通信通过集体操作进行管理。

编程模型和框架公开

Ironwood 的编程模型与 v4 之前的 TPU 世代(例如 TPU v3)的编程模型类似。新架构以以下方式公开:

  • 每个芯片两个设备:JAX 等框架将每个 Ironwood 芯片公开为两个单独的“设备”,每个芯粒一个。

  • 4D 拓扑:JAX 向拓扑添加第四维度,以指定要使用这两个芯片上设备中的哪一个。这样,您只需进行极少的修改即可使用现有的软件模型。

如需详细了解如何通过双芯粒架构实现最佳性能,请参阅 Ironwood 的双芯粒架构的性能建议

受支持的配置

TPU7x 芯片可直接连接到 3 个维度中最邻近的相邻芯片,从而形成 3D 网格网络连接。大于 64 个芯片的切片由一个或多个 4x4x4 的芯片“立方体”组成。

下表展示了 TPU7x 支持的常见 3D 切片形状:

拓扑 TPU 芯片 主机 虚拟机 立方体 范围
2x2x1 4 1 1 1/16 单个主机
2x2x2 8 2 2 1/8 多主机
2x2x4 16 4 4 1/4 多主机
2x4x4 32 8 8 1/2 多主机
4x4x4 64 16 16 1 多主机
4x4x8 128 32 32 2 多主机
4x8x8 256 64 64 4 多主机
8x8x8 512 128 128 8 多主机
8x8x16 1024 256 256 16 多主机
8x16x16 2048 512 512 32 多主机

TPU7x 虚拟机

每个 TPU7x 虚拟机 (VM) 包含 4 个芯片。每个虚拟机都可以访问两个 NUMA 节点。如需详细了解 NUMA 节点,请参阅维基百科上的非统一内存访问

所有 TPU7x 切片都使用全主机、4 芯片虚拟机。TPU7x 虚拟机的技术规格如下:

  • 每个虚拟机的 vCPU 数量:224
  • 每个虚拟机的 RAM:960 GB
  • 每个虚拟机的 NUMA 节点数:2

Hyperdisk

默认情况下,TPU7x 的虚拟机启动磁盘为 Hyperdisk Balanced。您可以将额外的 Hyperdisk Balanced 磁盘挂接到 TPU 虚拟机,以获得更多存储空间。

如需详细了解 Hyperdisk,请参阅 Hyperdisk 概览。如需详细了解 Cloud TPU 的存储选项,请参阅 Cloud TPU 数据的存储选项

后续步骤