TPU v6e

本文說明 Cloud TPU v6e (Trillium) 的架構和支援的設定。在所有技術介面 (例如 API 和記錄) 和本文件中,Trillium 都會稱為 v6e。

每個 Pod 都有 256 個晶片,因此 v6e 與 v5e 有許多相似之處。這個系統經過最佳化,可訓練、微調及提供 Transformer、文字轉圖片和卷積類神經網路 (CNN) 模型。

系統架構

每個 v6e 晶片都包含一個 TensorCore。每個 TensorCore 都有 2 個矩陣乘法單元 (MXU)、一個向量單元和一個純量單元。下表列出 TPU v6e 的主要規格及其值。

規格
效能/總持有成本 (TCO) (預期) 1
每個晶片的尖峰運算效能 (bf16) 918 TFLOPS
每個晶片的尖峰運算效能 (Int8) 1836 TOPS
每個晶片的 HBM 容量 32 GB
每個晶片的 HBM 頻寬 1600 GBps
雙向晶片間互連 (ICI) 頻寬 (每個晶片) 800 GBps
每個晶片的 ICI 連接埠 4
每個主機的 DRAM 1536 GiB
每個主機的晶片數 8
TPU Pod 大小 256 個晶片
互連網路拓撲 2D 環面
每個 Pod 的 BF16 尖峰運算效能 234.9 PFLOPs
每個 Pod 的 All-reduce 頻寬 102.4 TB/秒
每個 Pod 的對分頻寬 3.2 TB/秒
每個主機的 NIC 設定 4 個 200 Gbps 網路介面卡
每個 Pod 的資料中心網路頻寬 25.6 Tbps
特殊功能 SparseCore

支援的設定

下表列出 v6e 支援的 2D 切片形狀:

拓撲 TPU 晶片 主機 VM 機器類型 (GKE API) 範圍
1x1 1 1/8 1 ct6e-standard-1t 共同主辦人
2x2 4 1/2 1 ct6e-standard-4t 共同主辦人
2x4 8 1 1 ct6e-standard-8t 單一主機
2x4 8 1 2 ct6e-standard-4t 單一主機
4x4 16 2 4 ct6e-standard-4t 多主機
4x8 32 4 8 ct6e-standard-4t 多主機
8x8 64 8 16 ct6e-standard-4t 多主機
8x16 128 16 32 ct6e-standard-4t 多主機
16x16 256 32 64 ct6e-standard-4t 多主機

連接至單一 VM 的 8 個晶片 (v6e-8) 切片經過最佳化,可進行推論,因此單一服務工作負載可使用所有 8 個晶片。您可以在 Cloud 上使用 Pathways 執行多主機推論。詳情請參閱「使用 Pathways 執行多主機推論」。

如要瞭解各拓撲的 VM 數量,請參閱「VM 類型」。

VM 類型

每個 TPU v6e VM 可包含 1、4 或 8 個晶片。4 晶片和更小的切片具有相同的非一致性記憶體存取 (NUMA) 節點。如要進一步瞭解 NUMA 節點,請參閱維基百科的「非一致性記憶體存取」。

v6e 主機的示意圖

v6e 配量是使用半主機 VM 建立,每個 VM 都有 4 個 TPU 晶片。這項規則有兩個例外狀況:

  • v6e-1:只有單一晶片的 VM,主要用於測試
  • v6e-8:已針對推論用途最佳化的完整主機 VM,所有 8 個晶片都附加至單一 VM。

下表列出 TPU v6e VM 類型的比較:

VM 類型 每個 VM 的 vCPU 數量 每個 VM 的 RAM (GB) 每個 VM 的 NUMA 節點數量
1 晶片 VM 44 176 1
4 晶片 VM 180 720 1
8 晶片 VM 180 1440 2

後續步驟