本文概要說明 Google Kubernetes Engine (GKE) 中的 Ironwood (TPU7x)。Ironwood (TPU7x) 是 Google 第七代 Tensor Processing Unit (TPU),專為大規模 AI 工作負載設計。與前幾代 TPU 相比,這款產品的效能大幅提升,可訓練及提供更大、更複雜的模型。
Ironwood (TPU7x) 的特性
Ironwood (TPU7x) 推出獨特功能,與其他 TPU 版本有所不同。這些功能會影響可用性、節點集區設定和工作負載效能。
如要瞭解基礎硬體,請參閱 Ironwood (TPU7x) 架構。
可用性
Ironwood (TPU7x) 適用於執行 1.34.0-gke.2201000 以上版本的 GKE Standard 叢集,以及執行 1.34.1-gke.3084001 以上版本的 Autopilot 叢集。
多主機節點集區的工作負載政策
建立多主機 TPU 配量節點集區時,Ironwood (TPU7x) 會使用工作負載政策,設定基礎架構的實體位置。建立工作負載政策,然後使用 --placement-policy 旗標套用政策。這項政策會取代其他 TPU 版本使用的 --tpu-topology 旗標。
工作負載政策是一種資源政策,可讓您設定基礎架構的實體位置。Ironwood (TPU7x) 支援高輸送量工作負載政策。這項政策會將 TPU VM 放置在同一位置,以減少網路延遲,並允許您定義維護策略,盡量減少工作負載中斷。
NUMA 繫結
Ironwood (TPU7x) 架構包含下列元素:
- 每個 Ironwood (TPU7x) 虛擬機器 (VM) 包含四個晶片和兩個 NIC。
- 每個 VM 都包含兩個非一致性記憶體存取 (NUMA) 節點。
- CPU、記憶體和 NIC 資源會平均分配給兩個 NUMA 節點。
跨不同 NUMA 節點存取資源 (跨 NUMA 存取) 可能會導致工作負載出現效能瓶頸。因此,為了提升工作負載效能,GKE 可讓您在多容器設定中部署工作負載。這會將每個容器繫結至特定 NUMA 節點內的 CPU、記憶體和 TPU 資源。
大型語言模型的參考實作
如要瞭解如何在 Ironwood (TPU7x) 上部署大型語言模型 (LLM),請參閱下列參考實作項目。您可以透過下列任一選項建立叢集:
- GKE XPK:使用 Accelerated Processing Kit (XPK) 快速建立 GKE 叢集,並執行概念驗證和測試的工作負載。詳情請參閱 XPK 說明文件。
- Google Cloud CLI 上的 GKE:使用 Google Cloud CLI 手動建立 GKE 叢集執行個體,精確自訂或擴充現有的正式版 GKE 環境。
| LLM | GKE XPK | Google Cloud CLI 中的 GKE |
|---|---|---|
採用 BF16 和 4x4x4 拓撲的 Llama 70b |
使用 XPK 在 Ironwood GKE 叢集上預先訓練 llama3.1-70b 工作負載 | 使用 Kubernetes JobSet 在 Ironwood GKE 叢集上預先訓練 llama3.1-70b 工作負載 |
使用 BF16 和 4x4x8 拓撲的 DeepSeek |
使用 XPK 在 Ironwood GKE 叢集上預先訓練 deepseek3-671b 工作負載 | 使用 Kubernetes JobSet 在 Ironwood GKE 叢集上預先訓練 deepseek3-671b 工作負載 |
使用 BF16 和 4x4x4 拓撲的 GPT-oss-120b |
使用 XPK 在 Ironwood GKE 叢集上預先訓練 gpt-oss-120b 工作負載 | 使用 Kubernetes JobSet 在 Ironwood GKE 叢集上預先訓練 gpt-oss-120b 工作負載 |
採用 BF16 和 4x8x8 拓撲的 Qwen3-235b-a22b |
使用 XPK 在 Ironwood GKE 叢集上預先訓練 qwen3-235b-a22b 工作負載 | 無法使用 |
後續步驟
- 瞭解如何在 GKE 中規劃 TPU。
- 瞭解如何在 GKE 中部署 TPU。
- 試用 Ironwood (TPU7x) 的端對端教學課程: