TPU v5p

本文說明 Cloud TPU v5p 的架構和支援的設定。

系統架構

本節說明 v5p 版本的專屬系統架構。每個 TensorCore 都有四個矩陣乘法單元 (MXU)、一個向量單元和一個純量單元。

v5p Pod 中有 8960 個晶片。可排程的最大工作為 96 立方體 (6144 個晶片) 工作。

下表列出 TPU v5p 的主要規格。

主要規格 v5p 值
每個晶片的尖峰運算效能 (BF16) 459 TFLOPS
HBM2e 容量和頻寬 95 GB,2765 GBps
TPU Pod 大小 8960 個晶片
互連網路拓撲 3D 環面 *
晶片間互連網路 (ICI) 頻寬 4800 Gbps

設定

TPU v5p Pod 由 8960 個晶片組成,這些晶片透過可重新設定的高速連結互連。TPU v5p 的彈性網路功能可讓您以多種方式連結相同大小配量中的晶片。

下表列出 v5p 支援的最常見單一切片形狀,以及大於 1 個立方體的大部分 (但並非全部) 立方體形狀。v5p 形狀上限為 16x16x24 (6144 個晶片,96 個立方體)。

拓撲 核心 晶片 主機 方塊 是否支援 Twisted?
2x2x1 8 4 1 不適用 不適用
2x2x2 16 8 2 不適用 不適用
2x4x4 64 32 8 不適用 不適用
4x4x4 128 64 16 1 不適用
4x4x8 256 128 32 2
4x8x8 512 256 64 4
8x8x8 1024 512 128 8 不適用
8x8x16 2048 1024 256 16
8x16x16 4096 2048 512 32
16x16x16 8192 4096 1024 64 不適用
16x16x24 12288 6144 1536 96 不適用

最多可使用 6144 個晶片進行單一切片訓練。您可以使用 Multislice 擴充至多 18432 個晶片。如要進一步瞭解 Multislice,請參閱 Cloud TPU Multislice 總覽

Cloud TPU ICI 復原能力

ICI 韌性有助於提升光纖連結和光纖電路交換器 (OCS) 的容錯能力,這些連結和交換器會連接立方體之間的 TPU。(立方體內的 ICI 連線使用不受影響的銅線連結)。ICI 韌性可讓 ICI 連線繞過 OCS 和光學 ICI 故障路徑。因此,這項功能可提升 TPU 節點的排程可用性,但 ICI 效能會暫時下降。

與 Cloud TPU v4 類似,對於一個或多個立方體 (4x4x4 拓撲) 的 v5p 配量,系統預設會啟用 ICI 復原功能。

VM、主機和切片屬性

屬性 TPU 的價值
v5p 晶片數量 4
vCPU 數量 208 (如果使用 NUMA 繫結來避免跨 NUMA 的效能損失,則只有一半可用)
RAM (GB) 448 (如果使用 NUMA 繫結來避免跨 NUMA 的效能懲罰,則只有一半可用)
NUMA 節點數量 2
NIC 輸送量 (Gbps) 200

Pod 中 TensorCore、晶片、主機/VM 和立方的數量關係:

核心 晶片 主機/VM 方塊
主機 8 4 1
Cube (機架) 128 64 16 1
支援的最大切片 12288 6144 1536 96
v5p 完整 Pod 17920 8960 2240 140