TPU v5e

Questo documento descrive l'architettura e le configurazioni supportate di Cloud TPU v5e.

TPU v5e supporta l'addestramento su un singolo host e su più host e l'inferenza su un singolo host. L'inferenza multi-host è supportata utilizzando Sax. Per saperne di più, consulta la sezione Inferenza Cloud TPU.

Architettura di sistema

Ogni chip v5e contiene un TensorCore. Ogni Tensor Core ha quattro unità di moltiplicazione a matrice (MXU), un'unità vettoriale e un'unità scalare.

Il seguente diagramma illustra un chip TPU v5e.

Diagramma di un chip v5e

La tabella seguente mostra le specifiche chiave e i relativi valori per v5e.

Specifica	Valori
Rendimento/costo totale di proprietà (TCO) (previsto)	0,65x
Picco di calcolo per chip (bf16)	197 TFLOP
Picco di calcolo per chip (Int8)	393 TOPS
Capacità HBM per chip	16 GB
Larghezza di banda HBM per chip	800 GBps
Larghezza di banda bidirezionale Inter-Chip Interconnect (ICI) (per chip)	400 GBps
Porte ICI per chip	4
DRAM per host	512 GiB
Chip per host	8
Dimensioni pod di TPU	256 chip
Topologia di interconnessione	Toro 2D
Picco di calcolo BF16 per pod	50,63 PFLOP
Larghezza di banda di riduzione totale per pod	51,2 TB/s
Larghezza di banda bisezionale per pod	1,6 TB/s
Configurazione NIC per host	NIC 2 x 100 Gbps
Larghezza di banda della rete del data center per pod	6,4 Tbps
Picco di calcolo per pod	100 petaop (Int8)

Configurazioni

Cloud TPU v5e è un prodotto combinato di addestramento e inferenza (servizio). I job di addestramento sono ottimizzati per velocità effettiva e disponibilità, mentre i job di servizio sono ottimizzati per la latenza. Un job di addestramento su TPU di cui è stato eseguito il provisioning per la pubblicazione potrebbe avere una disponibilità inferiore e, analogamente, un job di pubblicazione eseguito su TPU di cui è stato eseguito il provisioning per l'addestramento potrebbe avere una latenza maggiore.

Per v5e sono supportate le seguenti forme di sezioni 2D:

Topologia	Numero di chip TPU	Numero di host
1x1	1	1/8
2x2	4	1/2
2x4	8	1
4x4	16	2
4x8	32	4
8x8	64	8
8x16	128	16
16x16	256	32

Tipi di VM

Ogni VM TPU in una sezione TPU v5e contiene 1, 4 o 8 chip. Nelle sezioni da 4 chip e più piccole, tutti i chip TPU condividono lo stesso nodo NUMA (accesso alla memoria non uniforme).

Per le VM TPU v5e a 8 chip, la comunicazione CPU-TPU sarà più efficiente all'interno delle partizioni NUMA. Ad esempio, nella figura seguente, la comunicazione CPU0-Chip0 sarà più veloce della comunicazione CPU0-Chip4.

Comunicazione tra nodi NUMA

La seguente tabella mostra un confronto tra i tipi di VM TPU v5e:

Tipo di VM	Tipo di macchina (API GKE)	Numero di vCPU per VM	RAM (GB) per VM	Numero di nodi NUMA per VM
VM con 1 chip	`ct5lp-hightpu-1t`	24	48	1
VM a 4 chip	`ct5lp-hightpu-4t`	112	192	1
VM a 8 chip	`ct5lp-hightpu-8t`	224	384	2

Tipi di Cloud TPU v5e per la pubblicazione

Il servizio su un singolo host è supportato per un massimo di 8 chip v5e. Sono supportate le seguenti configurazioni: sezioni 1x1, 2x2 e 2x4. Ogni fetta ha rispettivamente 1, 4 e 8 chip.

Configurazioni TPU v5e che supportano la pubblicazione: 1x1, 2x2 e
2x4.

Per eseguire il provisioning delle TPU per un job di pubblicazione, utilizza una delle seguenti dimensioni di slice TPU nella richiesta di creazione di TPU della CLI o dell'API:

Numero di chip TPU	Tipo di macchina (API GKE)
`1`	`ct5lp-hightpu-1t`
`4`	`ct5lp-hightpu-4t`
`8`	`ct5lp-hightpu-8t`

Per saperne di più sulla gestione delle TPU, consulta Gestire le TPU. Per saperne di più sull'architettura di sistema di Cloud TPU, consulta Architettura di sistema.

L'hosting su più di 8 chip v5e, chiamato anche multi-host, è supportato utilizzando Sax. Per saperne di più, consulta la sezione Inferenza Cloud TPU.

Tipi di Cloud TPU v5e per l'addestramento

L'addestramento è supportato per un massimo di 256 chip.

Per eseguire il provisioning delle TPU per un job di addestramento v5e, utilizza una delle seguenti dimensioni di slice TPU nella richiesta di creazione di TPU della CLI o dell'API:

Numero di chip TPU	Tipo di macchina (API GKE)	Topologia
`16`	`ct5lp-hightpu-4t`	4x4
`32`	`ct5lp-hightpu-4t`	4x8
`64`	`ct5lp-hightpu-4t`	8x8
`128`	`ct5lp-hightpu-4t`	8x16
`256`	`ct5lp-hightpu-4t`	16x16

Per saperne di più sulla gestione delle TPU, consulta Gestire le TPU. Per saperne di più sull'architettura di sistema di Cloud TPU, consulta Architettura di sistema.