Informazioni su Ironwood (TPU7x) in GKE

Questo documento fornisce una panoramica di Ironwood (TPU7x) in Google Kubernetes Engine (GKE). Ironwood (TPU7x) è la Tensor Processing Unit (TPU) di settima generazione di Google, progettata su misura per carichi di lavoro AI su larga scala. Offre un miglioramento significativo delle prestazioni rispetto alle generazioni precedenti di TPU, il che ti consente di addestrare e gestire modelli più grandi e complessi.

Caratteristiche di Ironwood (TPU7x)

Ironwood (TPU7x) introduce funzionalità uniche che lo distinguono dalle altre versioni di TPU. Queste funzionalità influiscono sulla disponibilità, sulla configurazione pool di nodi e sulle prestazioni del carico di lavoro.

Per informazioni sull'hardware sottostante, consulta la sezione Architettura di Ironwood (TPU7x).

Disponibilità

Ironwood (TPU7x) è disponibile nei cluster GKE Standard che eseguono la versione 1.34.0-gke.2201000 e successive e nei cluster Autopilot che eseguono la versione 1.34.1-gke.3084001 e successive.

Policy del workload per i node pool multi-host

Ironwood (TPU7x) utilizza un'policy del carico di lavoro per configurare il posizionamento fisico dell'infrastruttura sottostante quando crei node pool di sezioni TPU multi-host. Crea una policy del workload e poi applicala utilizzando il flag --placement-policy. Queste norme sostituiscono il flag --tpu-topology utilizzato da altre versioni di TPU.

Una policy del carico di lavoro è un tipo di policy delle risorse che consente di configurare il posizionamento fisico dell'infrastruttura. Ironwood (TPU7x) supporta la policy del workload High throughput. Questo criterio colloca le VM TPU per ridurre la latenza di rete e ti consente di definire la strategia di manutenzione per ridurre al minimo le interruzioni del carico di lavoro.

Associazione NUMA

L'architettura Ironwood (TPU7x) include i seguenti elementi:

  • Ogni macchina virtuale (VM) Ironwood (TPU7x) contiene quattro chip e due NIC.
  • Ogni VM contiene due nodi NUMA (Non-Uniform Memory Access).
  • Le risorse di CPU, memoria e NIC sono suddivise equamente tra i due nodi NUMA.

L'accesso alle risorse su diversi nodi NUMA (accesso cross-NUMA) può introdurre colli di bottiglia delle prestazioni nei tuoi carichi di lavoro. Pertanto, per ottimizzare le prestazioni del carico di lavoro, GKE ti consente di eseguire il deployment dei carichi di lavoro in una configurazione multi-container. In questo modo, ogni container viene associato alle risorse di CPU, memoria e TPU all'interno di un determinato nodo NUMA.

Implementazioni di riferimento degli LLM

Per scoprire come eseguire il deployment di modelli linguistici di grandi dimensioni (LLM) su Ironwood (TPU7x), consulta le seguenti implementazioni di riferimento. Puoi utilizzare una delle seguenti opzioni per la creazione del cluster:

  • GKE XPK: utilizza Accelerated Processing Kit (XPK) per creare rapidamente cluster GKE ed eseguire carichi di lavoro per prove concettuali e test. Per ulteriori informazioni, consulta la documentazione XPK.
  • GKE su Google Cloud CLI:utilizza Google Cloud CLI per creare manualmente l'istanza del cluster GKE per una personalizzazione o un'espansione precisa degli ambienti GKE di produzione esistenti.
LLM GKE XPK GKE su Google Cloud CLI
Llama 70b con BF16 e una topologia 4x4x4 Preaddestra il carico di lavoro llama3.1-70b sui cluster GKE Ironwood con XPK Pretrain llama3.1-70b workload on Ironwood GKE clusters with Kubernetes JobSet
DeepSeek con BF16 e una topologia 4x4x8 Preaddestramento del workload deepseek3-671b sui cluster GKE Ironwood con XPK Preaddestra il workload deepseek3-671b sui cluster GKE Ironwood con Kubernetes JobSet
GPT-oss-120b con BF16 e una topologia 4x4x4 Preaddestra il workload gpt-oss-120b sui cluster GKE Ironwood con XPK Preaddestra il workload gpt-oss-120b sui cluster GKE Ironwood con Kubernetes JobSet
Qwen3-235b-a22b con BF16 e una topologia 4x8x8 Preaddestrare il workload qwen3-235b-a22b sui cluster GKE Ironwood con XPK Non disponibile

Passaggi successivi