Ironwood (TPU7x) in GKE

Dieses Dokument bietet eine Übersicht über Ironwood (TPU7x) in Google Kubernetes Engine (GKE). Ironwood (TPU7x) ist die Tensor Processing Unit (TPU) der siebten Generation von Google, die speziell für KI-Arbeitslasten im großen Maßstab entwickelt wurde. Sie bietet eine erhebliche Leistungssteigerung gegenüber früheren TPU-Generationen, sodass Sie größere und komplexere Modelle trainieren und bereitstellen können.

Eigenschaften von Ironwood (TPU7x)

Ironwood (TPU7x) bietet einzigartige Funktionen, die sie von anderen TPU-Versionen unterscheiden. Diese Funktionen wirken sich auf die Verfügbarkeit, die Knotenpoolkonfiguration und die Leistung von Arbeitslasten aus.

Informationen zur zugrunde liegenden Hardware finden Sie unter Ironwood-Architektur (TPU7x).

Verfügbarkeit

Ironwood (TPU7x) ist in GKE-Standardclustern mit Version 1.34.0-gke.2201000 und höher sowie in Autopilot-Clustern mit Version 1.34.1-gke.3084001 und höher verfügbar.

Arbeitslastrichtlinie für Knotenpools mit mehreren Hosts

Bei Ironwood (TPU7x) wird eine Arbeitslastrichtlinie verwendet, um die physische Platzierung der zugrunde liegenden Infrastruktur zu konfigurieren, wenn Sie TPU-Slice-Knotenpools mit mehreren Hosts erstellen. Sie erstellen eine Arbeitslastrichtlinie und wenden sie dann mit dem Flag --placement-policy an. Diese Richtlinie ersetzt das Flag --tpu-topology, das von anderen TPU-Versionen verwendet wird.

Eine Arbeitslastrichtlinie ist eine Art von Ressourcenrichtlinie, mit der Sie die physische Platzierung der Infrastruktur konfigurieren können. Ironwood (TPU7x) unterstützt die Arbeitslastrichtlinie Hoher Durchsatz. Mit dieser Richtlinie werden die TPU-VMs gemeinsam platziert, um die Netzwerklatenz zu reduzieren. Außerdem können Sie die Wartungsstrategie definieren, um Unterbrechungen der Arbeitslast zu minimieren.

NUMA-Bindung

Die Ironwood-Architektur (TPU7x) umfasst die folgenden Elemente:

  • Jede Ironwood-VM (TPU7x) enthält vier Chips und zwei NICs.
  • Jede VM enthält zwei NUMA-Knoten (Non-Uniform Memory Access).
  • Die Ressourcen für CPU, Arbeitsspeicher und NICs werden gleichmäßig auf die beiden NUMA-Knoten aufgeteilt.

Der Zugriff auf Ressourcen über verschiedene NUMA-Knoten hinweg (NUMA-übergreifender Zugriff) kann zu Leistungsengpässen bei Ihren Arbeitslasten führen. Um die Leistung Ihrer Arbeitslast zu optimieren, können Sie Ihre Arbeitslasten in GKE daher in einer Multi-Container-Konfiguration bereitstellen. Dadurch wird jeder Container an die CPU-, Arbeitsspeicher- und TPU-Ressourcen innerhalb eines bestimmten NUMA-Knotens gebunden.

Referenzimplementierungen von LLMs

Informationen zum Bereitstellen von Large Language Models (LLMs) auf Ironwood (TPU7x) finden Sie in den folgenden Referenzimplementierungen. Sie haben folgende Möglichkeiten, einen Cluster zu erstellen:

  • GKE XPK: Mit dem Accelerated Processing Kit (XPK) können Sie schnell GKE-Cluster erstellen und Arbeitslasten für Proof-of-Concepts und Tests ausführen. Weitere Informationen finden Sie in der XPK-Dokumentation.
  • GKE on Google Cloud CLI:Mit der Google Cloud CLI können Sie Ihre GKE-Clusterinstanz manuell erstellen, um vorhandene GKE-Produktionsumgebungen präzise anzupassen oder zu erweitern.
LLM GKE XPK GKE in Google Cloud CLI
Llama 70b mit BF16 und einer 4x4x4-Topologie llama3.1-70b-Arbeitslast auf Ironwood-GKE-Clustern mit XPK vortrainieren Llama3.1-70b-Arbeitslast in Ironwood-GKE-Clustern mit Kubernetes JobSet vortrainieren
DeepSeek mit BF16 und einer 4x4x8-Topologie deepseek3-671b-Arbeitslast auf Ironwood-GKE-Clustern mit XPK vortrainieren deepseek3-671b-Arbeitslast auf Ironwood-GKE-Clustern mit Kubernetes JobSet vortrainieren
GPT-oss-120b mit BF16 und einer 4x4x4-Topologie gpt-oss-120b-Arbeitslast mit XPK auf Ironwood-GKE-Clustern vortrainieren gpt-oss-120b-Arbeitslast auf Ironwood-GKE-Clustern mit Kubernetes JobSet vortrainieren
Qwen3-235b-a22b mit BF16 und einer 4x8x8-Topologie qwen3-235b-a22b-Arbeitslast auf Ironwood-GKE-Clustern mit XPK vortrainieren Nicht verfügbar

Nächste Schritte