Questo documento fornisce una panoramica di Ironwood (TPU7x) in Google Kubernetes Engine (GKE). Ironwood (TPU7x) è la Tensor Processing Unit (TPU) di settima generazione di Google, progettata su misura per carichi di lavoro AI su larga scala. Offre un miglioramento significativo delle prestazioni rispetto alle generazioni precedenti di TPU, il che ti consente di addestrare e gestire modelli più grandi e complessi.
Caratteristiche di Ironwood (TPU7x)
Ironwood (TPU7x) introduce funzionalità uniche che lo distinguono dalle altre versioni di TPU. Queste funzionalità influiscono sulla disponibilità, sulla configurazione pool di nodi e sulle prestazioni del carico di lavoro.
Per informazioni sull'hardware sottostante, consulta la sezione Architettura di Ironwood (TPU7x).
Disponibilità
Ironwood (TPU7x) è disponibile nei cluster GKE Standard che eseguono la versione 1.34.0-gke.2201000 e successive e nei cluster Autopilot che eseguono la versione 1.34.1-gke.3084001 e successive.
Policy del workload per i node pool multi-host
Ironwood (TPU7x) utilizza un'policy
del carico di lavoro per
configurare il posizionamento fisico dell'infrastruttura sottostante quando
crei node pool di sezioni TPU multi-host. Crea una policy del workload e poi
applicala utilizzando il flag --placement-policy. Queste norme sostituiscono il flag
--tpu-topology utilizzato da altre versioni di TPU.
Una policy del carico di lavoro è un tipo di policy delle risorse che consente di configurare il posizionamento fisico dell'infrastruttura. Ironwood (TPU7x) supporta la policy del workload High throughput. Questo criterio colloca le VM TPU per ridurre la latenza di rete e ti consente di definire la strategia di manutenzione per ridurre al minimo le interruzioni del carico di lavoro.
Associazione NUMA
L'architettura Ironwood (TPU7x) include i seguenti elementi:
- Ogni macchina virtuale (VM) Ironwood (TPU7x) contiene quattro chip e due NIC.
- Ogni VM contiene due nodi NUMA (Non-Uniform Memory Access).
- Le risorse di CPU, memoria e NIC sono suddivise equamente tra i due nodi NUMA.
L'accesso alle risorse su diversi nodi NUMA (accesso cross-NUMA) può introdurre colli di bottiglia delle prestazioni nei tuoi carichi di lavoro. Pertanto, per ottimizzare le prestazioni del carico di lavoro, GKE ti consente di eseguire il deployment dei carichi di lavoro in una configurazione multi-container. In questo modo, ogni container viene associato alle risorse di CPU, memoria e TPU all'interno di un determinato nodo NUMA.
Implementazioni di riferimento degli LLM
Per scoprire come eseguire il deployment di modelli linguistici di grandi dimensioni (LLM) su Ironwood (TPU7x), consulta le seguenti implementazioni di riferimento. Puoi utilizzare una delle seguenti opzioni per la creazione del cluster:
- GKE XPK: utilizza Accelerated Processing Kit (XPK) per creare rapidamente cluster GKE ed eseguire carichi di lavoro per prove concettuali e test. Per ulteriori informazioni, consulta la documentazione XPK.
- GKE su Google Cloud CLI:utilizza Google Cloud CLI per creare manualmente l'istanza del cluster GKE per una personalizzazione o un'espansione precisa degli ambienti GKE di produzione esistenti.
| LLM | GKE XPK | GKE su Google Cloud CLI |
|---|---|---|
Llama 70b con BF16 e una topologia 4x4x4 |
Preaddestra il carico di lavoro llama3.1-70b sui cluster GKE Ironwood con XPK | Pretrain llama3.1-70b workload on Ironwood GKE clusters with Kubernetes JobSet |
DeepSeek con BF16 e una topologia 4x4x8 |
Preaddestramento del workload deepseek3-671b sui cluster GKE Ironwood con XPK | Preaddestra il workload deepseek3-671b sui cluster GKE Ironwood con Kubernetes JobSet |
GPT-oss-120b con BF16 e una topologia 4x4x4 |
Preaddestra il workload gpt-oss-120b sui cluster GKE Ironwood con XPK | Preaddestra il workload gpt-oss-120b sui cluster GKE Ironwood con Kubernetes JobSet |
Qwen3-235b-a22b con BF16 e una topologia 4x8x8 |
Preaddestrare il workload qwen3-235b-a22b sui cluster GKE Ironwood con XPK | Non disponibile |
Passaggi successivi
- Scopri come pianificare le TPU in GKE.
- Scopri come eseguire il deployment delle TPU in GKE.
- Prova i tutorial end-to-end per Ironwood (TPU7x):
- Esegui il workload di addestramento con Ironwood (TPU7x) e le prenotazioni utilizzando Cloud Storage
- Esegui il workload di addestramento con Ironwood (TPU7x) con avvio flessibile utilizzando l'archiviazione Filestore
- Esegui il workload di addestramento con Ironwood (TPU7x) e avvio flessibile utilizzando l'archiviazione Lustre