TPU v5e

本文档介绍了 Cloud TPU v5e 的架构和支持的配置。

TPU v5e 支持单主机和多主机训练,以及单主机推理。使用 Sax 支持多主机推理。 如需了解详情,请参阅 Cloud TPU 推理

系统架构

每个 v5e 芯片包含一个 TensorCore。每个 TensorCore 都有四个矩阵乘法单元 (MXU)、一个向量单元和一个标量单元。

下图展示了 TPU v5e 芯片。

v5e 芯片示意图

下表展示了 v5e 的主要芯片规格及其值。

芯片主要规格 v5e 值
每个芯片的峰值计算能力 (bf16) 197 TFLOPs
HBM2 容量和带宽 16 GB,819 GBps
双向芯片间互连 (ICI) 带宽(每芯片) 400 GBps

下表展示了 Pod 规范及其 v5e 值。

关键 Pod 规范 v5e 值
TPU Pod 大小 256 个芯片
互连拓扑 2D 环面
每个 Pod 的峰值计算能力 100 PetaOps(Int8)
每个 Pod 的 All-reduce 带宽 51.2 TBps
每个 Pod 的对分带宽 1.6 TBps
每个 Pod 的数据中心网络带宽 6.4 Tbps

配置

Cloud TPU v5e 是一款集训练和推理(服务)于一体的产品。训练作业针对吞吐量和可用性进行了优化,服务作业则针对延迟时间进行了优化。在为服务而预配的 TPU 上运行的训练作业的可用性可能较低,同样,在为训练而预配的 TPU 上执行的服务作业的延迟时间可能较长。

v5e 支持以下 2D 切片形状:

拓扑 TPU 芯片数量 主机数量
1x1 1 1/8
2x2 4 1/2
2x4 8 1
4x4 16 2
4x8 32 4
8x8 64 8
8x16 128 16
16x16 256 32

虚拟机类型

v5e TPU 切片中的每个 TPU 虚拟机都包含 1 个、4 个或 8 个芯片。在 4 芯片及更小的切片中,所有 TPU 芯片共享同一非统一内存访问 (NUMA) 节点。

对于 8 芯片 v5e TPU 虚拟机,CPU-TPU 通信在 NUMA 分区内会更高效。例如,在下图中,CPU0-Chip0 通信会比 CPU0-Chip4 通信更快。

NUMA 节点通信

下表比较了 TPU v5e 虚拟机类型:

虚拟机类型 机器类型 (GKE API) 每个虚拟机的 vCPU 数量 每个虚拟机的 RAM (GB) 每个虚拟机的 NUMA 节点数
单芯片虚拟机 ct5lp-hightpu-1t 24 48 1
4 芯片虚拟机 ct5lp-hightpu-4t 112 192 1
8 芯片虚拟机 ct5lp-hightpu-8t 224 384 2

用于服务的 Cloud TPU v5e 类型

单主机服务最多支持 8 个 v5e 芯片。支持以下配置:1x1、2x2 和 2x4 切片。每个切片分别有 1 个、4 个和 8 个芯片。

支持服务的 TPU v5e 配置:1x1、2x2 和 2x4。

如需为服务作业预配 TPU,请在 CLI 或 API TPU 创建请求中使用以下 TPU 切片大小之一:

TPU 芯片数量 机器类型 (GKE API)
1 ct5lp-hightpu-1t
4 ct5lp-hightpu-4t
8 ct5lp-hightpu-8t

如需详细了解如何管理 TPU,请参阅管理 TPU。如需详细了解 Cloud TPU 的系统架构,请参阅系统架构

使用 Sax 可在超过 8 个 v5e 芯片上提供服务,也称为多主机服务。如需了解详情,请参阅 Cloud TPU 推理

用于训练的 Cloud TPU v5e 类型

训练最多支持 256 个芯片。

如需为 v5e 训练作业预配 TPU,请在 CLI 或 API TPU 创建请求中使用以下 TPU 切片大小之一:

TPU 芯片数量 机器类型 (GKE API) 拓扑
16 ct5lp-hightpu-4t 4x4
32 ct5lp-hightpu-4t 4x8
64 ct5lp-hightpu-4t 8x8
128 ct5lp-hightpu-4t 8x16
256 ct5lp-hightpu-4t 16x16

如需详细了解如何管理 TPU,请参阅管理 TPU。如需详细了解 Cloud TPU 的系统架构,请参阅系统架构