TPU v6e
本文說明 Cloud TPU v6e (Trillium) 的架構和支援的設定。在所有技術介面 (例如 API 和記錄) 和本文件中,Trillium 都會稱為 v6e。
每個 Pod 都有 256 個晶片,因此 v6e 與 v5e 有許多相似之處。這個系統經過最佳化,可為 Transformer、文字轉圖片和卷積類神經網路 (CNN) 訓練、微調和服務提供最高價值。
系統架構
每個 v6e 晶片都包含一個 TensorCore。每個 TensorCore 都有 2 個矩陣乘法單元 (MXU)、一個向量單元和一個純量單元。下表列出 TPU v6e 與 TPU v5e 相比的主要規格和值。
| 規格 | v5e | v6e |
|---|---|---|
| 效能/總持有成本 (TCO) (預期) | 0.65 倍 | 1 |
| 每個晶片的尖峰運算效能 (bf16) | 197 TFLOPS | 918 TFLOPS |
| 每個晶片的尖峰運算效能 (Int8) | 393 TOPS | 1836 TOPS |
| 每個晶片的 HBM 容量 | 16 GB | 32 GB |
| 每個晶片的 HBM 頻寬 | 800 GBps | 1600 GBps |
| 晶片間互連網路 (ICI) 頻寬 | 1600 Gbps | 3200 Gbps |
| 每個晶片的 ICI 連接埠 | 4 | 4 |
| 每個主機的 DRAM | 512 GiB | 1536 GiB |
| 每位主辦人可獲得的晶片數 | 8 | 8 |
| TPU Pod 大小 | 256 個晶片 | 256 個晶片 |
| 互連網路拓撲 | 2D 環面 | 2D 環面 |
| 每個 Pod 的 BF16 尖峰運算效能 | 50.63 PFLOPs | 234.9 PFLOPs |
| 每個 Pod 的 All-reduce 頻寬 | 51.2 TB/秒 | 102.4 TB/秒 |
| 每個 Pod 的對分頻寬 | 1.6 TB/秒 | 3.2 TB/秒 |
| 每個主機的 NIC 設定 | 2 個 100 Gbps NIC | 4 個 200 Gbps 網路介面卡 |
| 每個 Pod 的資料中心網路頻寬 | 6.4 Tbps | 25.6 Tbps |
| 特殊功能 | - | SparseCore |
支援的設定
下表列出 v6e 支援的 2D 切片形狀:
| 拓撲 | TPU 晶片 | 主機 | VM | 機器類型 (GKE API) | 範圍 |
|---|---|---|---|---|---|
| 1x1 | 1 | 1/8 | 1 | ct6e-standard-1t |
共同主辦人 |
| 2x2 | 4 | 1/2 | 1 | ct6e-standard-4t |
共同主辦人 |
| 2x4 | 8 | 1 | 1 | ct6e-standard-8t |
單一主機 |
| 2x4 | 8 | 1 | 2 | ct6e-standard-4t |
單一主機 |
| 4x4 | 16 | 2 | 4 | ct6e-standard-4t |
多主機 |
| 4x8 | 32 | 4 | 8 | ct6e-standard-4t |
多主機 |
| 8x8 | 64 | 8 | 16 | ct6e-standard-4t |
多主機 |
| 8x16 | 128 | 16 | 32 | ct6e-standard-4t |
多主機 |
| 16x16 | 256 | 32 | 64 | ct6e-standard-4t |
多主機 |
連接至單一 VM 的 8 個晶片 (v6e-8) 切片經過最佳化,可進行推論,因此單一服務工作負載可使用所有 8 個晶片。您可以在 Cloud 上使用 Pathways 執行多主機推論。詳情請參閱「使用 Pathways 執行多主機推論」。
如要瞭解各拓撲的 VM 數量,請參閱「VM 類型」。
VM 類型
每個 TPU v6e VM 可包含 1、4 或 8 個晶片。4 晶片和更小的切片具有相同的非一致性記憶體存取 (NUMA) 節點。如要進一步瞭解 NUMA 節點,請參閱維基百科的「非一致性記憶體存取」。

v6e 配量是使用半主機 VM 建立,每個 VM 都有 4 個 TPU 晶片。這項規則有兩個例外狀況:
v6e-1:只有單一晶片的 VM,主要用於測試v6e-8:已針對推論用途最佳化的完整主機 VM,所有 8 個晶片都連線至單一 VM。
下表列出 TPU v6e VM 類型的比較:
| VM 類型 | 每個 VM 的 vCPU 數量 | 每個 VM 的 RAM (GB) | 每個 VM 的 NUMA 節點數量 |
|---|---|---|---|
| 1 晶片 VM | 44 | 176 | 1 |
| 4 晶片 VM | 180 | 720 | 1 |
| 8 個晶片的 VM | 180 | 1440 | 2 |