TPU v5p
Questo documento descrive l'architettura e le configurazioni supportate di Cloud TPU v5p.
Architettura di sistema
Questa sezione descrive l'architettura del sistema specifica della versione v5p. Ogni Tensor Core ha quattro unità di moltiplicazione a matrice (MXU), un'unità vettoriale e un'unità scalare.
Un pod v5p contiene 8960 chip. Il job più grande che può essere pianificato è un job di 96 cubi (6144 chip).
La tabella seguente mostra le specifiche chiave per la TPU v5p.
| Specifiche principali | Valori v5p |
|---|---|
| Picco di calcolo per chip (BF16) | 459 TFLOP |
| Capacità e larghezza di banda HBM2e | 95 GB, 2765 GBps |
| Dimensioni pod di TPU | 8960 chip |
| Topologia di interconnessione | Toro 3D * |
| Larghezza di banda dell'interconnessione inter-chip (ICI) | 4800 Gbps |
Configurazioni
Un pod TPU v5p è composto da 8960 chip interconnessi con link riconfigurabili ad alta velocità. Il networking flessibile della TPU v5p ti consente di connettere i chip in una sezione delle stesse dimensioni in più modi.
La tabella seguente mostra le forme a una sola fetta più comuni supportate con v5p, oltre alla maggior parte (ma non tutte) delle forme a cubo intero maggiori di un cubo. La forma massima di v5p è 16x16x24 (6144 chip, 96 cubi).
| Topologia | Core | Chip | Hosting | Cubi | Supporta la torsione? |
|---|---|---|---|---|---|
| 2x2x1 | 8 | 4 | 1 | N/D | N/D |
| 2x2x2 | 16 | 8 | 2 | N/D | N/D |
| 2x4x4 | 64 | 32 | 8 | N/D | N/D |
| 4x4x4 | 128 | 64 | 16 | 1 | N/D |
| 4x4x8 | 256 | 128 | 32 | 2 | Sì |
| 4x8x8 | 512 | 256 | 64 | 4 | Sì |
| 8x8x8 | 1024 | 512 | 128 | 8 | N/D |
| 8x8x16 | 2048 | 1024 | 256 | 16 | Sì |
| 8x16x16 | 4096 | 2048 | 512 | 32 | Sì |
| 16x16x16 | 8192 | 4096 | 1024 | 64 | N/D |
| 16x16x24 | 12288 | 6144 | 1536 | 96 | N/D |
L'addestramento a una sola fetta è supportato per un massimo di 6144 chip. Puoi scalare fino a 18432 chip utilizzando Multislice. Per saperne di più su Multislice, consulta la panoramica di Cloud TPU Multislice.
Resilienza dell'ICI di Cloud TPU
La resilienza dell'ICI contribuisce a migliorare la tolleranza agli errori dei collegamenti ottici e degli interruttori di circuiti ottici (OCS) che collegano le TPU tra i cubi. (le connessioni ICI all'interno di un cubo utilizzano collegamenti in rame che non sono interessati). La resilienza ICI consente di instradare le connessioni ICI intorno ai guasti OCS e ICI ottici. Di conseguenza, migliora la disponibilità di pianificazione degli slice TPU, con il compromesso di un peggioramento temporaneo delle prestazioni ICI.
Analogamente a Cloud TPU v4, la resilienza ICI è abilitata per impostazione predefinita per le sezioni v5p che sono un cubo o più grandi (topologia 4x4x4).
Proprietà di VM, host e slice
| Proprietà | Valore in una TPU |
|---|---|
| Numero di chip v5p | 4 |
| Numero di vCPU | 208 (solo la metà è utilizzabile se si utilizza il binding NUMA per evitare penalità di rendimento cross-NUMA) |
| RAM (GB) | 448 (solo la metà è utilizzabile se si utilizza il binding NUMA per evitare penalità di prestazioni cross-NUMA) |
| # of NUMA nodes | 2 |
| Throughput NIC (Gbps) | 200 |
Relazione tra il numero di Tensor Core, chip, host/VM e cubi in un pod:
| Core | Chip | Host/VM | Cubi | |
|---|---|---|---|---|
| Organizzatore | 8 | 4 | 1 | |
| Cube (rack) | 128 | 64 | 16 | 1 |
| Fetta più grande supportata | 12288 | 6144 | 1536 | 96 |
| v5p full Pod | 17920 | 8960 | 2240 | 140 |