Dieses Dokument bietet eine Übersicht über Ironwood (TPU7x) in Google Kubernetes Engine (GKE). Ironwood (TPU7x) ist die Tensor Processing Unit (TPU) der siebten Generation von Google, die speziell für KI-Arbeitslasten im großen Maßstab entwickelt wurde. Sie bietet eine erhebliche Leistungssteigerung gegenüber früheren TPU-Generationen, sodass Sie größere und komplexere Modelle trainieren und bereitstellen können.
Eigenschaften von Ironwood (TPU7x)
Ironwood (TPU7x) bietet einzigartige Funktionen, die sie von anderen TPU-Versionen unterscheiden. Diese Funktionen wirken sich auf die Verfügbarkeit, die Knotenpoolkonfiguration und die Leistung von Arbeitslasten aus.
Informationen zur zugrunde liegenden Hardware finden Sie unter Ironwood-Architektur (TPU7x).
Verfügbarkeit
Ironwood (TPU7x) ist in GKE-Standardclustern mit Version 1.34.0-gke.2201000 und höher sowie in Autopilot-Clustern mit Version 1.34.1-gke.3084001 und höher verfügbar.
Arbeitslastrichtlinie für Knotenpools mit mehreren Hosts
Bei Ironwood (TPU7x) wird eine Arbeitslastrichtlinie verwendet, um die physische Platzierung der zugrunde liegenden Infrastruktur zu konfigurieren, wenn Sie TPU-Slice-Knotenpools mit mehreren Hosts erstellen. Sie erstellen eine Arbeitslastrichtlinie und wenden sie dann mit dem Flag --placement-policy an. Diese Richtlinie ersetzt das Flag --tpu-topology, das von anderen TPU-Versionen verwendet wird.
Eine Arbeitslastrichtlinie ist eine Art von Ressourcenrichtlinie, mit der Sie die physische Platzierung der Infrastruktur konfigurieren können. Ironwood (TPU7x) unterstützt die Arbeitslastrichtlinie Hoher Durchsatz. Mit dieser Richtlinie werden die TPU-VMs gemeinsam platziert, um die Netzwerklatenz zu reduzieren. Außerdem können Sie die Wartungsstrategie definieren, um Unterbrechungen der Arbeitslast zu minimieren.
NUMA-Bindung
Die Ironwood-Architektur (TPU7x) umfasst die folgenden Elemente:
- Jede Ironwood-VM (TPU7x) enthält vier Chips und zwei NICs.
- Jede VM enthält zwei NUMA-Knoten (Non-Uniform Memory Access).
- Die Ressourcen für CPU, Arbeitsspeicher und NICs werden gleichmäßig auf die beiden NUMA-Knoten aufgeteilt.
Der Zugriff auf Ressourcen über verschiedene NUMA-Knoten hinweg (NUMA-übergreifender Zugriff) kann zu Leistungsengpässen bei Ihren Arbeitslasten führen. Um die Leistung Ihrer Arbeitslast zu optimieren, können Sie Ihre Arbeitslasten in GKE daher in einer Multi-Container-Konfiguration bereitstellen. Dadurch wird jeder Container an die CPU-, Arbeitsspeicher- und TPU-Ressourcen innerhalb eines bestimmten NUMA-Knotens gebunden.
Referenzimplementierungen von LLMs
Informationen zum Bereitstellen von Large Language Models (LLMs) auf Ironwood (TPU7x) finden Sie in den folgenden Referenzimplementierungen. Sie haben folgende Möglichkeiten, einen Cluster zu erstellen:
- GKE XPK: Mit dem Accelerated Processing Kit (XPK) können Sie schnell GKE-Cluster erstellen und Arbeitslasten für Proof-of-Concepts und Tests ausführen. Weitere Informationen finden Sie in der XPK-Dokumentation.
- GKE on Google Cloud CLI:Mit der Google Cloud CLI können Sie Ihre GKE-Clusterinstanz manuell erstellen, um vorhandene GKE-Produktionsumgebungen präzise anzupassen oder zu erweitern.
| LLM | GKE XPK | GKE in Google Cloud CLI |
|---|---|---|
Llama 70b mit BF16 und einer 4x4x4-Topologie |
llama3.1-70b-Arbeitslast auf Ironwood-GKE-Clustern mit XPK vortrainieren | Llama3.1-70b-Arbeitslast in Ironwood-GKE-Clustern mit Kubernetes JobSet vortrainieren |
DeepSeek mit BF16 und einer 4x4x8-Topologie |
deepseek3-671b-Arbeitslast auf Ironwood-GKE-Clustern mit XPK vortrainieren | deepseek3-671b-Arbeitslast auf Ironwood-GKE-Clustern mit Kubernetes JobSet vortrainieren |
GPT-oss-120b mit BF16 und einer 4x4x4-Topologie |
gpt-oss-120b-Arbeitslast mit XPK auf Ironwood-GKE-Clustern vortrainieren | gpt-oss-120b-Arbeitslast auf Ironwood-GKE-Clustern mit Kubernetes JobSet vortrainieren |
Qwen3-235b-a22b mit BF16 und einer 4x8x8-Topologie |
qwen3-235b-a22b-Arbeitslast auf Ironwood-GKE-Clustern mit XPK vortrainieren | Nicht verfügbar |
Nächste Schritte
- TPUs in GKE planen
- Informationen zum Bereitstellen von TPUs in GKE
- End-to-End-Anleitungen für Ironwood (TPU7x):