本頁面由 Cloud Translation API 翻譯而成。

關於 GKE 中的 Ironwood (TPU7x)

自動駕駛標準

本文概要說明 Google Kubernetes Engine (GKE) 中的 Ironwood (TPU7x)。Ironwood (TPU7x) 是 Google 第七代 Tensor Processing Unit (TPU)，專為大規模 AI 工作負載設計。與前幾代 TPU 相比，這款產品的效能大幅提升，可訓練及提供更大、更複雜的模型。

Ironwood (TPU7x) 的特性

Ironwood (TPU7x) 推出獨特功能，與其他 TPU 版本有所不同。這些功能會影響可用性、節點集區設定和工作負載效能。

如要瞭解基礎硬體，請參閱 Ironwood (TPU7x) 架構。

可用性

Ironwood (TPU7x) 適用於執行 1.34.0-gke.2201000 以上版本的 GKE Standard 叢集，以及執行 1.34.1-gke.3084001 以上版本的 Autopilot 叢集。

多主機節點集區的工作負載政策

建立多主機 TPU 配量節點集區時，Ironwood (TPU7x) 會使用工作負載政策，設定基礎架構的實體位置。建立工作負載政策，然後使用 --placement-policy 旗標套用政策。這項政策會取代其他 TPU 版本使用的 --tpu-topology 旗標。

工作負載政策是一種資源政策，可讓您設定基礎架構的實體位置。Ironwood (TPU7x) 支援高輸送量工作負載政策。這項政策會將 TPU VM 放置在同一位置，以減少網路延遲，並允許您定義維護策略，盡量減少工作負載中斷。

NUMA 繫結

Ironwood (TPU7x) 架構包含下列元素：

每個 Ironwood (TPU7x) 虛擬機器 (VM) 包含四個晶片和兩個 NIC。
每個 VM 都包含兩個非一致性記憶體存取 (NUMA) 節點。
CPU、記憶體和 NIC 資源會平均分配給兩個 NUMA 節點。

跨不同 NUMA 節點存取資源 (跨 NUMA 存取) 可能會導致工作負載出現效能瓶頸。因此，為了提升工作負載效能，GKE 可讓您在多容器設定中部署工作負載。這會將每個容器繫結至特定 NUMA 節點內的 CPU、記憶體和 TPU 資源。

大型語言模型的參考實作

如要瞭解如何在 Ironwood (TPU7x) 上部署大型語言模型 (LLM)，請參閱下列參考實作項目。您可以透過下列任一選項建立叢集：

GKE XPK：使用 Accelerated Processing Kit (XPK) 快速建立 GKE 叢集，並執行概念驗證和測試的工作負載。詳情請參閱 XPK 說明文件。
Google Cloud CLI 上的 GKE：使用 Google Cloud CLI 手動建立 GKE 叢集執行個體，精確自訂或擴充現有的正式版 GKE 環境。

LLM	GKE XPK	Google Cloud CLI 中的 GKE
採用 BF16 和 `4x4x4` 拓撲的 Llama 70b	使用 XPK 在 Ironwood GKE 叢集上預先訓練 llama3.1-70b 工作負載	使用 Kubernetes JobSet 在 Ironwood GKE 叢集上預先訓練 llama3.1-70b 工作負載
使用 BF16 和 `4x4x8` 拓撲的 DeepSeek	使用 XPK 在 Ironwood GKE 叢集上預先訓練 deepseek3-671b 工作負載	使用 Kubernetes JobSet 在 Ironwood GKE 叢集上預先訓練 deepseek3-671b 工作負載
使用 BF16 和 `4x4x4` 拓撲的 GPT-oss-120b	使用 XPK 在 Ironwood GKE 叢集上預先訓練 gpt-oss-120b 工作負載	使用 Kubernetes JobSet 在 Ironwood GKE 叢集上預先訓練 gpt-oss-120b 工作負載
採用 BF16 和 `4x8x8` 拓撲的 Qwen3-235b-a22b	使用 XPK 在 Ironwood GKE 叢集上預先訓練 qwen3-235b-a22b 工作負載	無法使用