GKE 中的 Ironwood (TPU7x) 简介

Autopilot Standard

本文档简要介绍了 Google Kubernetes Engine (GKE) 中的 Ironwood (TPU7x)。Ironwood (TPU7x) 是 Google 的第七代张量处理单元 (TPU)，专为大规模 AI 工作负载而定制。与之前的 TPU 相比，它在性能方面有了显著提升，让您可以训练和提供更大、更复杂的模型。

Ironwood (TPU7x) 的特征

Ironwood (TPU7x) 引入了独特的特性，使其与其他 TPU 版本有所不同。这些功能会影响可用性、节点池配置和工作负载性能。

如需了解底层硬件，请参阅 Ironwood (TPU7x) 架构。

可用性

Ironwood (TPU7x) 适用于运行 1.34.0-gke.2201000 版及更高版本的 GKE Standard 集群，以及运行 1.34.1-gke.3084001 版及更高版本的 Autopilot 集群。

多主机节点池的工作负载政策

Ironwood (TPU7x) 在您创建多主机 TPU 切片节点池时，会使用工作负载政策来配置底层基础设施的物理位置。您可以创建工作负载政策，然后使用 --placement-policy 标志应用该政策。此政策取代了其他 TPU 版本使用的 --tpu-topology 标志。

工作负载政策是一种资源政策，可用于配置基础设施的物理位置。Ironwood (TPU7x) 支持高吞吐量工作负载政策。此政策会将 TPU 虚拟机并置，以缩短网络延迟时间，并允许您定义维护策略，以最大限度地减少工作负载中断。

NUMA 绑定

Ironwood (TPU7x) 架构包含以下元素：

每个 Ironwood (TPU7x) 虚拟机 (VM) 都包含 4 个芯片和 2 个 NIC。
每个虚拟机都包含两个非统一内存访问 (NUMA) 节点。
CPU、内存和网卡资源在两个 NUMA 节点之间平均分配。

跨不同 NUMA 节点访问资源（跨 NUMA 访问）可能会导致工作负载出现性能瓶颈。因此，为了优化工作负载性能，GKE 允许您在多容器设置中部署工作负载。这会将每个容器绑定到给定 NUMA 节点内的 CPU、内存和 TPU 资源。

LLM 的参考实现

如需了解如何在 Ironwood (TPU7x) 上部署大语言模型 (LLM)，请参阅以下参考实现。您可以使用以下任一选项来创建集群：

GKE XPK：使用加速处理套件 (XPK) 快速创建 GKE 集群并运行工作负载，以进行概念验证和测试。如需了解详情，请参阅 XPK 文档。
GKE on Google Cloud CLI：使用 Google Cloud CLI 手动创建 GKE 集群实例，以便精确自定义或扩展现有生产 GKE 环境。

LLM	GKE XPK	GKE on Google Cloud CLI
采用 BF16 和 `4x4x4` 拓扑的 Llama 70b	在 Ironwood GKE 集群上使用 XPK 预训练 llama3.1-70b 工作负载	在 Ironwood GKE 集群上使用 Kubernetes JobSet 预训练 llama3.1-70b 工作负载
DeepSeek，采用 BF16 和 `4x4x8` 拓扑	在 Ironwood GKE 集群上使用 XPK 预训练 deepseek3-671b 工作负载	在 Ironwood GKE 集群上使用 Kubernetes JobSet 预训练 deepseek3-671b 工作负载
采用 BF16 和 `4x4x4` 拓扑的 GPT-oss-120b	在具有 XPK 的 Ironwood GKE 集群上预训练 gpt-oss-120b 工作负载	在 Ironwood GKE 集群上使用 Kubernetes JobSet 预训练 gpt-oss-120b 工作负载
采用 BF16 和 `4x8x8` 拓扑的 Qwen3-235b-a22b	在具有 XPK 的 Ironwood GKE 集群上预训练 qwen3-235b-a22b 工作负载	不可用