TPU7x (Ironwood)
本页面介绍了 TPU7x( Google Cloud上提供的最新 TPU)的架构和可用配置。TPU7x 是 Ironwood 系列中的首个版本,也是 Google Cloud的第七代 TPU。Ironwood 世代专为大规模 AI 训练和推理而设计。
TPU7x 的每个 Pod 有 9,216 个芯片,与 TPU v5p 有很多相似之处。TPU7x 可为大规模密集模型和 MoE 模型、预训练、采样和解码密集型推理提供高性能。
如需使用 TPU7x,您必须使用 Google Kubernetes Engine (GKE)。如需了解详情,请参阅 GKE 中的 TPU 简介。
您还可以将 TPU7x 和 GKE 与 TPU Cluster Director 搭配使用。TPU Cluster Director 通过“所有容量”模式预留提供,可让您完全访问所有预留容量(无保留),并全面了解 TPU 硬件拓扑、利用率状态和健康状态。如需了解详情,请参阅“所有容量”模式概览。
如需获取 TPU7x 访问权限,请与您的客户支持团队联系。
系统架构
每个 TPU7x 芯片包含两个 TensorCore 和四个 SparseCore。下表展示了 TPU7x 的主要规格及其值,并与之前几代进行了比较。
| 规范 | v5p | v6e (Trillium) | TPU7x (Ironwood) |
|---|---|---|---|
| 每个 pod 的芯片数量 | 8960 | 256 | 9216 |
| 每个芯片的峰值计算能力 (BF16) (TFLOPs) | 459 | 918 | 2307 |
| 每个芯片的峰值计算能力 (FP8) (TFLOPs) | 459 | 918 | 4614 |
| 每个芯片的 HBM 容量 (GiB) | 95 | 32 | 192 |
| 每个芯片的 HBM 带宽 (GB/s) | 2765 | 1638 | 7380 |
| vCPU 的数量(4 芯片虚拟机) | 208 | 180 | 224 |
| RAM (GB)(4 芯片虚拟机) | 448 | 720 | 960 |
| 每个芯片的 TensorCore 数量 | 2 | 1 | 2 |
| 每个芯片的 SparseCore 数量 | 4 | 2 | 4 |
| 每个芯片的双向芯片间互连 (ICI) 带宽 (GB/s) | 1200 | 800 | 1200 |
| 每个芯片的数据中心网络 (DCN) 带宽 (Gb/s) | 50 | 100 | 100 |
下图展示了 Ironwood 的架构:

双芯粒架构
借助 Ironwood 编程模型,您可以访问两个 TPU 设备,而不是之前几代(TPU v4 和 v5p)中使用的单个逻辑核心(也称为 MegaCore)架构。此变更可提高芯片制造的成本效益和效率。虽然这代表着架构的转变,但新设计可确保您只需进行少量更改即可重复使用现有的软件模型。
Ironwood TPU 由两个不同的芯粒组成。这与 MegaCore 架构的统一内存空间不同。
芯粒构成:每个芯粒都是一个独立的单元,包含一个 TensorCore、两个 SparseCore 和 96 GB 的高带宽内存 (HBM)。
高速互连:这两个芯粒通过裸片间 (D2D) 接口连接,该接口的速度是一维芯片间互连 (ICI) 链路的 6 倍。芯粒间通信通过集体操作进行管理。
编程模型和框架公开
Ironwood 的编程模型与 v4 之前的 TPU 世代(例如 TPU v3)的编程模型类似。新架构以以下方式公开:
每个芯片两个设备:JAX 等框架将每个 Ironwood 芯片公开为两个单独的“设备”,每个芯粒一个。
4D 拓扑:JAX 向拓扑添加第四维度,以指定要使用这两个芯片上设备中的哪一个。这样,您只需进行极少的修改即可使用现有的软件模型。
如需详细了解如何通过双芯粒架构实现最佳性能,请参阅 Ironwood 的双芯粒架构的性能建议
受支持的配置
TPU7x 芯片可直接连接到 3 个维度中最邻近的相邻芯片,从而形成 3D 网格网络连接。大于 64 个芯片的切片由一个或多个 4x4x4 的芯片“立方体”组成。
下表展示了 TPU7x 支持的常见 3D 切片形状:
| 拓扑 | TPU 芯片 | 主机 | 虚拟机 | 立方体 | 范围 |
|---|---|---|---|---|---|
| 2x2x1 | 4 | 1 | 1 | 1/16 | 单个主机 |
| 2x2x2 | 8 | 2 | 2 | 1/8 | 多主机 |
| 2x2x4 | 16 | 4 | 4 | 1/4 | 多主机 |
| 2x4x4 | 32 | 8 | 8 | 1/2 | 多主机 |
| 4x4x4 | 64 | 16 | 16 | 1 | 多主机 |
| 4x4x8 | 128 | 32 | 32 | 2 | 多主机 |
| 4x8x8 | 256 | 64 | 64 | 4 | 多主机 |
| 8x8x8 | 512 | 128 | 128 | 8 | 多主机 |
| 8x8x16 | 1024 | 256 | 256 | 16 | 多主机 |
| 8x16x16 | 2048 | 512 | 512 | 32 | 多主机 |
TPU7x 虚拟机
每个 TPU7x 虚拟机 (VM) 包含 4 个芯片。每个虚拟机都可以访问两个 NUMA 节点。如需详细了解 NUMA 节点,请参阅维基百科上的非统一内存访问。
所有 TPU7x 切片都使用全主机、4 芯片虚拟机。TPU7x 虚拟机的技术规格如下:
- 每个虚拟机的 vCPU 数量:224
- 每个虚拟机的 RAM:960 GB
- 每个虚拟机的 NUMA 节点数:2
Hyperdisk
默认情况下,TPU7x 的虚拟机启动磁盘为 Hyperdisk Balanced。您可以将额外的 Hyperdisk Balanced 磁盘挂接到 TPU 虚拟机,以获得更多存储空间。
如需详细了解 Hyperdisk,请参阅 Hyperdisk 概览。如需详细了解 Cloud TPU 的存储选项,请参阅 Cloud TPU 数据的存储选项。