本文档简要介绍了 Google Kubernetes Engine (GKE) 中的 Ironwood (TPU7x)。Ironwood (TPU7x) 是 Google 的第七代张量处理单元 (TPU),专为大规模 AI 工作负载而定制。与之前的 TPU 相比,它在性能方面有了显著提升,让您可以训练和提供更大、更复杂的模型。
Ironwood (TPU7x) 的特征
Ironwood (TPU7x) 引入了独特的特性,使其与其他 TPU 版本有所不同。这些功能会影响可用性、节点池配置和工作负载性能。
如需了解底层硬件,请参阅 Ironwood (TPU7x) 架构。
可用性
Ironwood (TPU7x) 适用于运行 1.34.0-gke.2201000 版及更高版本的 GKE Standard 集群,以及运行 1.34.1-gke.3084001 版及更高版本的 Autopilot 集群。
多主机节点池的工作负载政策
Ironwood (TPU7x) 在您创建多主机 TPU 切片节点池时,会使用工作负载政策来配置底层基础设施的物理位置。您可以创建工作负载政策,然后使用 --placement-policy 标志应用该政策。此政策取代了其他 TPU 版本使用的 --tpu-topology 标志。
工作负载政策是一种资源政策,可用于配置基础设施的物理位置。Ironwood (TPU7x) 支持高吞吐量工作负载政策。此政策会将 TPU 虚拟机并置,以缩短网络延迟时间,并允许您定义维护策略,以最大限度地减少工作负载中断。
NUMA 绑定
Ironwood (TPU7x) 架构包含以下元素:
- 每个 Ironwood (TPU7x) 虚拟机 (VM) 都包含 4 个芯片和 2 个 NIC。
- 每个虚拟机都包含两个非统一内存访问 (NUMA) 节点。
- CPU、内存和网卡资源在两个 NUMA 节点之间平均分配。
跨不同 NUMA 节点访问资源(跨 NUMA 访问)可能会导致工作负载出现性能瓶颈。因此,为了优化工作负载性能,GKE 允许您在多容器设置中部署工作负载。这会将每个容器绑定到给定 NUMA 节点内的 CPU、内存和 TPU 资源。
LLM 的参考实现
如需了解如何在 Ironwood (TPU7x) 上部署大语言模型 (LLM),请参阅以下参考实现。您可以使用以下任一选项来创建集群:
- GKE XPK:使用加速处理套件 (XPK) 快速创建 GKE 集群并运行工作负载,以进行概念验证和测试。如需了解详情,请参阅 XPK 文档。
- GKE on Google Cloud CLI:使用 Google Cloud CLI 手动创建 GKE 集群实例,以便精确自定义或扩展现有生产 GKE 环境。
| LLM | GKE XPK | GKE on Google Cloud CLI |
|---|---|---|
采用 BF16 和 4x4x4 拓扑的 Llama 70b |
在 Ironwood GKE 集群上使用 XPK 预训练 llama3.1-70b 工作负载 | 在 Ironwood GKE 集群上使用 Kubernetes JobSet 预训练 llama3.1-70b 工作负载 |
DeepSeek,采用 BF16 和 4x4x8 拓扑 |
在 Ironwood GKE 集群上使用 XPK 预训练 deepseek3-671b 工作负载 | 在 Ironwood GKE 集群上使用 Kubernetes JobSet 预训练 deepseek3-671b 工作负载 |
采用 BF16 和 4x4x4 拓扑的 GPT-oss-120b |
在具有 XPK 的 Ironwood GKE 集群上预训练 gpt-oss-120b 工作负载 | 在 Ironwood GKE 集群上使用 Kubernetes JobSet 预训练 gpt-oss-120b 工作负载 |
采用 BF16 和 4x8x8 拓扑的 Qwen3-235b-a22b |
在具有 XPK 的 Ironwood GKE 集群上预训练 qwen3-235b-a22b 工作负载 | 不可用 |
后续步骤
- 了解如何规划 GKE 中的 TPU。
- 了解如何在 GKE 中部署 TPU。
- 不妨试用 Ironwood (TPU7x) 的端到端教程: