TPU v5p
本文說明 Cloud TPU v5p 的架構和支援的設定。
系統架構
本節說明 v5p 版本的專屬系統架構。每個 TensorCore 都有四個矩陣乘法單元 (MXU)、一個向量單元和一個純量單元。
v5p Pod 中有 8960 個晶片。可排程的最大工作為 96 立方體 (6144 個晶片) 工作。
下表列出 TPU v5p 的主要規格。
| 主要規格 | v5p 值 |
|---|---|
| 每個晶片的尖峰運算效能 (BF16) | 459 TFLOPS |
| HBM2e 容量和頻寬 | 95 GB,2765 GBps |
| TPU Pod 大小 | 8960 個晶片 |
| 互連網路拓撲 | 3D 環面 * |
| 晶片間互連網路 (ICI) 頻寬 | 4800 Gbps |
設定
TPU v5p Pod 由 8960 個晶片組成,這些晶片透過可重新設定的高速連結互連。TPU v5p 的彈性網路功能可讓您以多種方式連結相同大小配量中的晶片。
下表列出 v5p 支援的最常見單一切片形狀,以及大於 1 個立方體的大部分 (但並非全部) 立方體形狀。v5p 形狀上限為 16x16x24 (6144 個晶片,96 個立方體)。
| 拓撲 | 核心 | 晶片 | 主機 | 方塊 | 是否支援 Twisted? |
|---|---|---|---|---|---|
| 2x2x1 | 8 | 4 | 1 | 不適用 | 不適用 |
| 2x2x2 | 16 | 8 | 2 | 不適用 | 不適用 |
| 2x4x4 | 64 | 32 | 8 | 不適用 | 不適用 |
| 4x4x4 | 128 | 64 | 16 | 1 | 不適用 |
| 4x4x8 | 256 | 128 | 32 | 2 | 是 |
| 4x8x8 | 512 | 256 | 64 | 4 | 是 |
| 8x8x8 | 1024 | 512 | 128 | 8 | 不適用 |
| 8x8x16 | 2048 | 1024 | 256 | 16 | 是 |
| 8x16x16 | 4096 | 2048 | 512 | 32 | 是 |
| 16x16x16 | 8192 | 4096 | 1024 | 64 | 不適用 |
| 16x16x24 | 12288 | 6144 | 1536 | 96 | 不適用 |
最多可使用 6144 個晶片進行單一切片訓練。您可以使用 Multislice 擴充至多 18432 個晶片。如要進一步瞭解 Multislice,請參閱 Cloud TPU Multislice 總覽。
Cloud TPU ICI 復原能力
ICI 韌性有助於提升光纖連結和光纖電路交換器 (OCS) 的容錯能力,這些連結和交換器會連接立方體之間的 TPU。(立方體內的 ICI 連線使用不受影響的銅線連結)。ICI 韌性可讓 ICI 連線繞過 OCS 和光學 ICI 故障路徑。因此,這項功能可提升 TPU 節點的排程可用性,但 ICI 效能會暫時下降。
與 Cloud TPU v4 類似,對於一個或多個立方體 (4x4x4 拓撲) 的 v5p 配量,系統預設會啟用 ICI 復原功能。
VM、主機和切片屬性
| 屬性 | TPU 的價值 |
|---|---|
| v5p 晶片數量 | 4 |
| vCPU 數量 | 208 (如果使用 NUMA 繫結來避免跨 NUMA 的效能損失,則只有一半可用) |
| RAM (GB) | 448 (如果使用 NUMA 繫結來避免跨 NUMA 的效能懲罰,則只有一半可用) |
| NUMA 節點數量 | 2 |
| NIC 輸送量 (Gbps) | 200 |
Pod 中 TensorCore、晶片、主機/VM 和立方的數量關係:
| 核心 | 晶片 | 主機/VM | 方塊 | |
|---|---|---|---|---|
| 主機 | 8 | 4 | 1 | |
| Cube (機架) | 128 | 64 | 16 | 1 |
| 支援的最大切片 | 12288 | 6144 | 1536 | 96 |
| v5p 完整 Pod | 17920 | 8960 | 2240 | 140 |