TPU v5p
本文說明 Cloud TPU v5p 的架構和支援的設定。
系統架構
本節說明 v5p 版本的專屬系統架構。每個 TensorCore 都有四個矩陣乘法單元 (MXU)、一個向量單元和一個純量單元。
v5p Pod 含有 8,960 顆晶片。可排程的最大工作為 96 立方體 (6144 個晶片) 工作。
下表列出 TPU v5p 的主要規格。
| 規格 | 值 |
|---|---|
| 每個 Pod 的晶片數量 | 8960 |
| 每顆晶片的尖峰運算效能 (BF16) (TFLOPs) | 459 |
| 每顆晶片的尖峰運算效能 (FP8) (TFLOPs) | 459 |
| 每個晶片的 HBM 容量 (GiB) | 95 |
| 每顆晶片的 HBM 頻寬 (GiBps) | 2575 |
| vCPU 數量 (4 個晶片的 VM) | 208 |
| RAM (GB) (4 晶片 VM) | 448 |
| 每個晶片的 TensorCore 數量 | 2 |
| 每個晶片的 SparseCore 數量 | 4 |
| 每個晶片的雙向晶片間互連 (ICI) 頻寬 (GBps) | 1200 |
| 每個晶片的資料中心網路 (DCN) 頻寬 (Gbps) | 50 |
| 互連網路拓撲 | 3D 環面 * |
設定
TPU v5p Pod 由 8,960 顆晶片組成,這些晶片透過可重新設定的高速連結互連。TPU v5p 的彈性網路可讓您以多種方式連結相同大小配量中的晶片。
下表列出 v5p 支援的最常見單一切片形狀,以及大於 1 個立方體的大部分 (但並非全部) 立方體形狀。v5p 形狀上限為 16x16x24 (6144 個晶片,96 個立方體)。
| 拓撲 | 核心 | 晶片 | 主機 | 方塊 | 機型 | 是否支援 Twisted? |
|---|---|---|---|---|---|---|
| 2x2x1 | 8 | 4 | 1 | 不適用 | ct5p-hightpu-4t |
不適用 |
| 2x2x2 | 16 | 8 | 2 | 不適用 | ct5p-hightpu-4t |
不適用 |
| 2x4x4 | 64 | 32 | 8 | 不適用 | ct5p-hightpu-4t |
不適用 |
| 4x4x4 | 128 | 64 | 16 | 1 | ct5p-hightpu-4t |
不適用 |
| 4x4x8 | 256 | 128 | 32 | 2 | ct5p-hightpu-4t |
是 |
| 4x8x8 | 512 | 256 | 64 | 4 | ct5p-hightpu-4t |
是 |
| 8x8x8 | 1024 | 512 | 128 | 8 | ct5p-hightpu-4t |
不適用 |
| 8x8x16 | 2048 | 1024 | 256 | 16 | ct5p-hightpu-4t |
是 |
| 8x16x16 | 4096 | 2048 | 512 | 32 | ct5p-hightpu-4t |
是 |
| 16x16x16 | 8192 | 4096 | 1024 | 64 | ct5p-hightpu-4t |
不適用 |
| 16x16x24 | 12288 | 6144 | 1536 | 96 | ct5p-hightpu-4t |
不適用 |
單一配量訓練最多支援 6144 顆晶片。您可以使用 Multislice 擴充至最多 18432 顆晶片。如要進一步瞭解多配量,請參閱 Cloud TPU 多配量總覽。
扭曲環面拓撲
對於某些 3D 切片形狀,您可以使用扭曲環面拓撲。這些拓撲可提供高得多的二分頻寬。舉例來說,相較於非扭曲的 4x4x8 切片,4x4x8 扭曲拓撲的理論二分頻寬可增加 70%。頻寬增加後,使用全域通訊模式的工作負載就能獲得助益。對於大多數模型,扭曲拓撲可提升效能,而TPU 嵌入工作負載越大,效益就越顯著。TPU 軟體支援切片上的扭曲拓撲,其中每個維度的大小等於或兩倍於最小維度。例如 4x4x8、4×8×8 或 12x12x24。透過 Cloud TPU API,TPU v4 和 TPU v5p 支援扭曲拓撲。
對於只使用資料平行處理策略的工作負載,扭曲拓撲的效能可能會稍微好一點。使用大型語言模型 (LLM) 時,扭曲拓撲的效能會因所用的平行處理類型 (例如資料平行處理或模型平行處理) 而異。如要找出模型的最佳效能,請使用扭曲拓撲訓練 LLM,並與未使用扭曲拓撲訓練的 LLM 進行比較。FSDP MaxText 模型的幾項實驗顯示,使用扭曲拓撲時,模型 FLOPS 使用率 (MFU) 提升了 1 到 2 個百分點。
扭曲拓撲的主要優點是將非對稱環面拓撲 (例如 4×4×8) 變更為對稱拓撲。對稱拓撲提供以下優點:
- 負載平衡功能改善
- 更高的二分頻寬
- 封包路徑較短
這些優勢可提升許多全球通訊模式的效能。
舉例來說,請參考這個 4×2 環面拓撲,其中 TPU 在配量中標示為 X 和 Y 座標:

為求明確,圖表會將連線顯示為無向邊。實際上,每個邊緣都是 TPU 之間的雙向連線。這個格線一側與對側之間的邊緣是環繞邊緣。
扭曲這個拓撲會建立對稱的 4×2 扭曲環面拓撲:

這個扭曲的圖表與未扭曲的圖表之間的差異在於 Y 軸的環繞邊緣。這些環繞邊緣不會連線至具有相同 X 座標的另一個 TPU,而是會連線至座標為 X+2 mod 4 的 TPU。
這項原則適用於不同大小和數量的尺寸。 如果每個維度的大小等於或兩倍於最小維度的大小,則產生的網路會是對稱網路。
下表列出部分支援的扭曲拓撲,以及與未扭曲拓撲相比,這些拓撲在理論上可增加的二分頻寬。
| 拓撲 | 與非扭曲環面相比,理論上的平分頻寬增加 |
|---|---|
| 4×4×8 | 約 70% |
| 8x8x16 | |
| 12×12×24 | |
| 4×8×8 | 約 40% |
| 8×16×16 |
Cloud TPU ICI 復原能力
ICI 韌性有助於提升光纖連結和光路交換器 (OCS) 的容錯能力,這些連結和交換器會連接立方體之間的 TPU。(立體架構內的 ICI 連線使用不受影響的銅線連結)。ICI 韌性可讓 ICI 連線繞過 OCS 和光學 ICI 故障路徑。因此,這項功能可提升 TPU 節點的排程可用性,但 ICI 效能會暫時下降。
如同 Cloud TPU v4,系統已為一個立方體或更大規模的 v5p 配量 (4x4x4 拓撲) 預設開啟 ICI 韌性。
VM、主機和切片屬性
| 屬性 | TPU 的價值 |
|---|---|
| v5p 晶片數量 | 4 |
| vCPU 數量 | 208 (如果使用 NUMA 繫結來避免跨 NUMA 的效能懲罰,則只有一半可用) |
| RAM (GB) | 448 (如果使用 NUMA 繫結來避免跨 NUMA 的效能懲罰,則只有一半可用) |
| NUMA 節點數量 | 2 |
| NIC 處理量 (Gbps) | 200 |
Pod 中 TensorCore、晶片、主機/VM 和 Cube 的數量關係:
| 核心 | 晶片 | 主機/VM | 方塊 | |
|---|---|---|---|---|
| 主機 | 8 | 4 | 1 | |
| Cube (機架) | 128 | 64 | 16 | 1 |
| 支援的最大切片 | 12288 | 6144 | 1536 | 96 |
| v5p 完整 Pod | 17920 | 8960 | 2240 | 140 |