關於 GKE 中的 Ironwood (TPU7x)

本文概要說明 Google Kubernetes Engine (GKE) 中的 Ironwood (TPU7x)。Ironwood (TPU7x) 是 Google 第七代 Tensor Processing Unit (TPU),專為大規模 AI 工作負載設計。與前幾代 TPU 相比,這款產品的效能大幅提升,可訓練及提供更大、更複雜的模型。

Ironwood (TPU7x) 的特性

Ironwood (TPU7x) 推出獨特功能,與其他 TPU 版本有所不同。這些功能會影響可用性、節點集區設定和工作負載效能。

如要瞭解基礎硬體,請參閱 Ironwood (TPU7x) 架構

可用性

Ironwood (TPU7x) 適用於執行 1.34.0-gke.2201000 以上版本的 GKE Standard 叢集,以及執行 1.34.1-gke.3084001 以上版本的 Autopilot 叢集。

多主機節點集區的工作負載政策

建立多主機 TPU 配量節點集區時,Ironwood (TPU7x) 會使用工作負載政策,設定基礎架構的實體位置。建立工作負載政策,然後使用 --placement-policy 旗標套用政策。這項政策會取代其他 TPU 版本使用的 --tpu-topology 旗標。

工作負載政策是一種資源政策,可讓您設定基礎架構的實體位置。Ironwood (TPU7x) 支援高輸送量工作負載政策。這項政策會將 TPU VM 放置在同一位置,以減少網路延遲,並允許您定義維護策略,盡量減少工作負載中斷。

NUMA 繫結

Ironwood (TPU7x) 架構包含下列元素:

  • 每個 Ironwood (TPU7x) 虛擬機器 (VM) 包含四個晶片和兩個 NIC。
  • 每個 VM 都包含兩個非一致性記憶體存取 (NUMA) 節點。
  • CPU、記憶體和 NIC 資源會平均分配給兩個 NUMA 節點。

跨不同 NUMA 節點存取資源 (跨 NUMA 存取) 可能會導致工作負載出現效能瓶頸。因此,為了提升工作負載效能,GKE 可讓您在多容器設定中部署工作負載。這會將每個容器繫結至特定 NUMA 節點內的 CPU、記憶體和 TPU 資源。

大型語言模型的參考實作

如要瞭解如何在 Ironwood (TPU7x) 上部署大型語言模型 (LLM),請參閱下列參考實作項目。您可以透過下列任一選項建立叢集:

  • GKE XPK:使用 Accelerated Processing Kit (XPK) 快速建立 GKE 叢集,並執行概念驗證和測試的工作負載。詳情請參閱 XPK 說明文件
  • Google Cloud CLI 上的 GKE:使用 Google Cloud CLI 手動建立 GKE 叢集執行個體,精確自訂或擴充現有的正式版 GKE 環境。
LLM GKE XPK Google Cloud CLI 中的 GKE
採用 BF16 和 4x4x4 拓撲的 Llama 70b 使用 XPK 在 Ironwood GKE 叢集上預先訓練 llama3.1-70b 工作負載 使用 Kubernetes JobSet 在 Ironwood GKE 叢集上預先訓練 llama3.1-70b 工作負載
使用 BF16 和 4x4x8 拓撲的 DeepSeek 使用 XPK 在 Ironwood GKE 叢集上預先訓練 deepseek3-671b 工作負載 使用 Kubernetes JobSet 在 Ironwood GKE 叢集上預先訓練 deepseek3-671b 工作負載
使用 BF16 和 4x4x4 拓撲的 GPT-oss-120b 使用 XPK 在 Ironwood GKE 叢集上預先訓練 gpt-oss-120b 工作負載 使用 Kubernetes JobSet 在 Ironwood GKE 叢集上預先訓練 gpt-oss-120b 工作負載
採用 BF16 和 4x8x8 拓撲的 Qwen3-235b-a22b 使用 XPK 在 Ironwood GKE 叢集上預先訓練 qwen3-235b-a22b 工作負載 無法使用

後續步驟