TPU v5e

本文說明 Cloud TPU v5e 的架構和支援的設定。

TPU v5e 支援單一和多主機訓練,以及單一主機推論。 系統支援使用 Sax 進行多主機推論。 詳情請參閱「Cloud TPU 推論」。

系統架構

每個 v5e 晶片都包含一個 TensorCore。每個 TensorCore 都有四個矩陣乘法單元 (MXU)、一個向量單元和一個純量單元。

下圖說明 TPU v5e 晶片。

v5e 晶片示意圖

下表列出 v5e 的主要晶片規格和值。

主要晶片規格 v5e 值
每個晶片的尖峰運算效能 (bf16) 197 TFLOPS
HBM2 容量和頻寬 16 GB,819 GBps
晶片間互連 BW 1600 Gbps

下表列出 Pod 規格和 v5e 的值。

Key Pod 規格 v5e 值
TPU Pod 大小 256 個晶片
互連網路拓撲 2D 環面
每個 Pod 的尖峰運算效能 100 PetaOps (Int8)
每個 Pod 的 All-reduce 頻寬 51.2 TB/秒
每個 Pod 的對分頻寬 1.6 TB/秒
每個 Pod 的資料中心網路頻寬 6.4 Tbps

設定

Cloud TPU v5e 是結合訓練和推論 (服務) 的產品。訓練工作是針對總處理量和可用性進行最佳化調整,而服務工作則是針對延遲。在為服務佈建的 TPU 上執行的訓練工作可用性可能較低,同樣地,在為訓練佈建的 TPU 上執行的服務工作延遲時間可能較長。

v5e 支援下列 2D 切片形狀:

拓撲 TPU 晶片數量 主機數量
1x1 1 1/8
2x2 4 1/2
2x4 8 1
4x4 16 2
4x8 32 4
8x8 64 8
8x16 128 16
16x16 256 32

VM 類型

v5e TPU 配量中的每個 TPU VM 包含 1、4 或 8 個晶片。在 4 個晶片和更小的切片中,所有 TPU 晶片共用同一個非一致性記憶體存取 (NUMA) 節點。

對於 8 個晶片的 v5e TPU VM,CPU-TPU 通訊在 NUMA 分區內會更有效率。舉例來說,在下圖中,CPU0-Chip0 通訊速度會比 CPU0-Chip4 通訊更快。

NUMA 節點通訊

下表列出 TPU v5e VM 類型的比較:

VM 類型 機器類型 (GKE API) 每個 VM 的 vCPU 數量 每個 VM 的 RAM (GB) 每個 VM 的 NUMA 節點數量
1 晶片 VM ct5lp-hightpu-1t 24 48 1
4 晶片 VM ct5lp-hightpu-4t 112 192 1
8 個晶片的 VM ct5lp-hightpu-8t 224 384 2

用於服務的 Cloud TPU v5e 類型

單一主機最多可支援 8 個 v5e 晶片。系統支援以下設定:1x1、2x2 和 2x4 切片。每個切片分別有 1、4 和 8 個晶片。

支援服務的 TPU v5e 設定:1x1、2x2 和 2x4。

如要為服務工作佈建 TPU,請在 CLI 或 API TPU 建立要求中使用下列其中一個 TPU 節點大小:

TPU 晶片數量 機器類型 (GKE API)
1 ct5lp-hightpu-1t
4 ct5lp-hightpu-4t
8 ct5lp-hightpu-8t

如要進一步瞭解如何管理 TPU,請參閱管理 TPU。如要進一步瞭解 Cloud TPU 的系統架構,請參閱「系統架構」。

使用 Sax 支援在超過 8 個 v5e 晶片上提供服務 (也稱為多主機服務)。詳情請參閱「 Cloud TPU 推論」。

用於訓練的 Cloud TPU v5e 類型

最多支援 256 個晶片的訓練作業。

如要為 v5e 訓練工作佈建 TPU,請在 CLI 或 API TPU 建立要求中使用下列其中一個 TPU 節點大小:

TPU 晶片數量 機器類型 (GKE API) 拓撲
16 ct5lp-hightpu-4t 4x4
32 ct5lp-hightpu-4t 4x8
64 ct5lp-hightpu-4t 8x8
128 ct5lp-hightpu-4t 8x16
256 ct5lp-hightpu-4t 16x16

如要進一步瞭解如何管理 TPU,請參閱管理 TPU。如要進一步瞭解 Cloud TPU 的系統架構,請參閱「系統架構」。