À propos d'Ironwood (TPU7x) dans GKE

Ce document présente Ironwood (TPU7x) dans Google Kubernetes Engine (GKE). Ironwood (TPU7x) est le Tensor Processing Unit (TPU) de septième génération de Google, conçu sur mesure pour les charges de travail d'IA à grande échelle. Il offre une amélioration significative des performances par rapport aux générations précédentes de TPU, ce qui vous permet d'entraîner et de diffuser des modèles plus volumineux et plus complexes.

Caractéristiques d'Ironwood (TPU7x)

Ironwood (TPU7x) présente des fonctionnalités uniques qui le différencient des autres versions de TPU. Ces fonctionnalités ont un impact sur la disponibilité, la configuration du pool de nœuds et les performances des charges de travail.

Pour en savoir plus sur le matériel sous-jacent, consultez Architecture Ironwood (TPU7x).

Disponibilité

Ironwood (TPU7x) est disponible dans les clusters GKE Standard exécutant la version 1.34.0-gke.2201000 ou une version ultérieure, et dans les clusters Autopilot exécutant la version 1.34.1-gke.3084001 ou une version ultérieure.

Règle de charge de travail pour les pools de nœuds multi-hôtes

Ironwood (TPU7x) utilise une règle de charge de travail pour configurer l'emplacement physique de l'infrastructure sous-jacente lorsque vous créez des pools de nœuds de tranche TPU multi-hôtes. Créez une règle de charge de travail, puis appliquez-la à l'aide de l'indicateur --placement-policy. Cette règle remplace l'indicateur --tpu-topology utilisé par d'autres versions de TPU.

Une règle de charge de travail est un type de règle de ressource qui vous permet de configurer l'emplacement physique de l'infrastructure. Ironwood (TPU7x) est compatible avec la stratégie de charge de travail Haut débit. Cette règle colocalise les VM TPU pour réduire la latence du réseau et vous permet de définir la stratégie de maintenance afin de minimiser les perturbations des charges de travail.

Liaison NUMA

L'architecture Ironwood (TPU7x) comprend les éléments suivants :

  • Chaque machine virtuelle (VM) Ironwood (TPU7x) contient quatre puces et deux cartes d'interface réseau.
  • Chaque VM contient deux nœuds NUMA (Non-Uniform Memory Access).
  • Les ressources de processeur, de mémoire et de cartes d'interface réseau sont réparties de manière égale entre les deux nœuds NUMA.

L'accès aux ressources sur différents nœuds NUMA (accès cross-NUMA) peut entraîner des goulots d'étranglement des performances dans vos charges de travail. Par conséquent, pour optimiser les performances de vos charges de travail, GKE vous permet de les déployer dans une configuration multiconteneur. Cela lie chaque conteneur aux ressources de processeur, de mémoire et de TPU d'un nœud NUMA donné.

Implémentations de référence des LLM

Pour découvrir comment déployer des grands modèles de langage (LLM) sur Ironwood (TPU7x), consultez les implémentations de référence suivantes. Vous pouvez utiliser l'une des options suivantes pour créer un cluster :

  • GKE XPK : utilisez Accelerated Processing Kit (XPK) pour créer rapidement des clusters GKE et exécuter des charges de travail pour les tests et les preuves de concept. Pour en savoir plus, consultez la documentation XPK.
  • GKE sur Google Cloud CLI : utilisez Google Cloud CLI pour créer manuellement votre instance de cluster GKE afin de personnaliser ou d'étendre précisément les environnements GKE de production existants.
LLM GKE XPK GKE sur Google Cloud CLI
Llama 70b avec BF16 et une topologie 4x4x4 Préentraîner la charge de travail llama3.1-70b sur des clusters Ironwood GKE avec XPK Préentraîner la charge de travail llama3.1-70b sur des clusters Ironwood GKE avec Kubernetes JobSet
DeepSeek avec BF16 et une topologie 4x4x8 Préentraîner la charge de travail deepseek3-671b sur des clusters Ironwood GKE avec XPK Préentraîner la charge de travail deepseek3-671b sur des clusters Ironwood GKE avec Kubernetes JobSet
GPT-oss-120b avec BF16 et une topologie 4x4x4 Préentraîner la charge de travail gpt-oss-120b sur des clusters Ironwood GKE avec XPK Préentraîner la charge de travail gpt-oss-120b sur des clusters Ironwood GKE avec Kubernetes JobSet
Qwen3-235b-a22b avec BF16 et une topologie 4x8x8 Préentraîner la charge de travail qwen3-235b-a22b sur des clusters Ironwood GKE avec XPK Non disponible

Étapes suivantes