À propos d'Ironwood (TPU7x) dans GKE

Ce document présente Ironwood (TPU7x) dans Google Kubernetes Engine (GKE). Ironwood (TPU7x) est la septième génération de TPU (Tensor Processing Unit) de Google, conçue sur mesure pour les charges de travail d'IA à grande échelle. Il offre une amélioration significative des performances par rapport aux générations précédentes de TPU, ce qui vous permet d'entraîner et de diffuser des modèles plus volumineux et plus complexes.

Caractéristiques d'Ironwood (TPU7x)

Ironwood (TPU7x) introduit des fonctionnalités uniques qui le distinguent des autres versions de TPU. Ces fonctionnalités ont un impact sur la disponibilité, la configuration du pool de nœuds et les performances des charges de travail.

Pour en savoir plus sur le matériel sous-jacent, consultez Architecture d'Ironwood (TPU7x).

Disponibilité

Ironwood (TPU7x) est disponible dans les clusters GKE Standard exécutant la version 1.34.0-gke.2201000 ou ultérieure, et dans les clusters Autopilot exécutant la version 1.34.1-gke.3084001 ou ultérieure.

Règle de charge de travail pour les pools de nœuds multi-hôtes

Ironwood (TPU7x) utilise une règle decharge de travail pour configurer le placement physique de l'infrastructure sous-jacente lorsque vous créez des pools de nœuds de tranche TPU multi-hôtes. Vous créez une règle de charge de travail, puis vous l'appliquez à l'aide du flag --placement-policy. Cette règle remplace le flag --tpu-topology utilisé par d'autres versions de TPU.

Une règle de charge de travail est un type de règle de ressource qui vous permet de configurer le placement physique de l'infrastructure. Ironwood (TPU7x) est compatible avec la règle de charge de travail High throughput. Cette règle colocalise les VM TPU pour réduire la latence du réseau et vous permet de définir la stratégie de maintenance afin de minimiser les perturbations des charges de travail.

Liaison NUMA

L'architecture d'Ironwood (TPU7x) comprend les éléments suivants :

  • Chaque machine virtuelle (VM) Ironwood (TPU7x) contient quatre puces et deux cartes d'interface réseau.
  • Chaque VM contient deux nœuds NUMA (Non-Uniform Memory Access).
  • Les ressources de processeur, de mémoire et de cartes d'interface réseau sont réparties de manière égale entre les deux nœuds NUMA.

L'accès aux ressources sur différents nœuds NUMA (accès inter-NUMA) peut entraîner des goulots d'étranglement des performances dans vos charges de travail. Par conséquent, pour optimiser les performances de vos charges de travail, GKE vous permet de les déployer dans une configuration multiconteneur. Cela lie chaque conteneur aux ressources de processeur, de mémoire et de TPU dans un nœud NUMA donné.

Implémentations de référence des LLM

Pour savoir comment déployer des grands modèles de langage (LLM) sur Ironwood (TPU7x), consultez les implémentations de référence suivantes. Vous pouvez utiliser l'une des options suivantes pour créer un cluster :

  • GKE XPK : utilisez le kit de traitement accéléré (XPK) pour créer rapidement des clusters GKE et exécuter des charges de travail pour des preuves de concept et des tests. Pour en savoir plus, consultez la documentation XPK.
  • GKE sur Google Cloud CLI : utilisez Google Cloud CLI pour créer manuellement votre instance de cluster GKE afin de personnaliser ou d'étendre précisément les environnements GKE de production existants.
LLM GKE XPK GKE sur Google Cloud CLI
Llama 70b avec BF16 et une topologie 4x4x4 Pré-entraîner la charge de travail llama3.1-70b sur des clusters GKE Ironwood avec XPK Pré-entraîner la charge de travail llama3.1-70b sur des clusters GKE Ironwood avec Kubernetes JobSet
DeepSeek avec BF16 et une topologie 4x4x8 Pré-entraîner la charge de travail deepseek3-671b sur des clusters GKE Ironwood avec XPK Pré-entraîner la charge de travail deepseek3-671b sur des clusters GKE Ironwood avec Kubernetes JobSet
GPT-oss-120b avec BF16 et une topologie 4x4x4 Pré-entraîner la charge de travail gpt-oss-120b sur des clusters GKE Ironwood avec XPK Pré-entraîner la charge de travail gpt-oss-120b sur des clusters GKE Ironwood avec Kubernetes JobSet
Qwen3-235b-a22b avec BF16 et une topologie 4x8x8 Pré-entraîner la charge de travail qwen3-235b-a22b sur des clusters GKE Ironwood avec XPK Non disponible

Étape suivante