TPU v5p
Questo documento descrive l'architettura e le configurazioni supportate di Cloud TPU v5p.
Architettura di sistema
Questa sezione descrive l'architettura del sistema specifica della versione v5p. Ogni Tensor Core ha quattro unità di moltiplicazione a matrice (MXU), un'unità vettoriale e un'unità scalare.
Un pod v5p contiene 8960 chip. Il job più grande che può essere pianificato è un job di 96 cubi (6144 chip).
La tabella seguente mostra le specifiche principali della TPU v5p.
| Specifica | Valori |
|---|---|
| Numero di chip per pod | 8960 |
| Picco di calcolo per chip (BF16) (TFLOP) | 459 |
| Picco di calcolo per chip (FP8) (TFLOP) | 459 |
| Capacità HBM per chip (GiB) | 95 |
| Larghezza di banda HBM per chip (GBps) | 2765 |
| Numero di vCPU (VM a 4 chip) | 208 |
| RAM (GB) (VM a 4 chip) | 448 |
| Numero di Tensor Core per chip | 2 |
| Numero di SparseCore per chip | 4 |
| Larghezza di banda bidirezionale di interconnessione inter-chip (ICI) per chip (GBps) | 1200 |
| Larghezza di banda della rete del data center (DCN) per chip (Gbps) | 50 |
| Topologia di interconnessione | Toro 3D * |
Configurazioni
Un pod TPU v5p è composto da 8960 chip interconnessi con link riconfigurabili ad alta velocità. La rete flessibile della TPU v5p ti consente di connettere i chip in una sezione delle stesse dimensioni in più modi.
La tabella seguente mostra le forme a singola fetta più comuni supportate con v5p, oltre alla maggior parte (ma non tutte) delle forme a cubo intero maggiori di un cubo. La forma massima v5p è 16x16x24 (6144 chip, 96 cubi).
| Topologia | Core | Chip | Hosting | Cubi | Supporta la torsione? |
|---|---|---|---|---|---|
| 2x2x1 | 8 | 4 | 1 | N/D | N/D |
| 2x2x2 | 16 | 8 | 2 | N/D | N/D |
| 2x4x4 | 64 | 32 | 8 | N/D | N/D |
| 4x4x4 | 128 | 64 | 16 | 1 | N/D |
| 4x4x8 | 256 | 128 | 32 | 2 | Sì |
| 4x8x8 | 512 | 256 | 64 | 4 | Sì |
| 8x8x8 | 1024 | 512 | 128 | 8 | N/D |
| 8x8x16 | 2048 | 1024 | 256 | 16 | Sì |
| 8x16x16 | 4096 | 2048 | 512 | 32 | Sì |
| 16x16x16 | 8192 | 4096 | 1024 | 64 | N/D |
| 16x16x24 | 12288 | 6144 | 1536 | 96 | N/D |
L'addestramento a una sola fetta è supportato per un massimo di 6144 chip. Puoi scalare fino a 18.432 chip utilizzando Multislice. Per maggiori informazioni su Multislice, consulta la panoramica di Cloud TPU Multislice.
Resilienza dell'ICI di Cloud TPU
La resilienza dell'ICI contribuisce a migliorare la tolleranza agli errori dei collegamenti ottici e degli interruttori di circuiti ottici (OCS) che collegano le TPU tra i cubi. (le connessioni ICI all'interno di un cubo utilizzano collegamenti in rame che non sono interessati). La resilienza ICI consente di instradare le connessioni ICI intorno ai guasti OCS e ICI ottici. Di conseguenza, migliora la disponibilità di pianificazione degli slice TPU, con il compromesso di un degrado temporaneo delle prestazioni ICI.
Analogamente a Cloud TPU v4, la resilienza ICI è abilitata per impostazione predefinita per le sezioni v5p che sono un cubo o più grandi (topologia 4x4x4).
Proprietà di VM, host e slice
| Proprietà | Valore di una TPU |
|---|---|
| Numero di chip v5p | 4 |
| Numero di vCPU | 208 (solo la metà è utilizzabile se si utilizza il binding NUMA per evitare penalità di rendimento cross-NUMA) |
| RAM (GB) | 448 (solo la metà è utilizzabile se si utilizza il binding NUMA per evitare penalità di prestazioni cross-NUMA) |
| # of NUMA nodes | 2 |
| Throughput NIC (Gbps) | 200 |
Relazione tra il numero di Tensor Core, chip, host/VM e cubi in un pod:
| Core | Chip | Host/VM | Cubi | |
|---|---|---|---|---|
| Organizzatore | 8 | 4 | 1 | |
| Cube (rack) | 128 | 64 | 16 | 1 |
| Fetta più grande supportata | 12288 | 6144 | 1536 | 96 |
| v5p full Pod | 17920 | 8960 | 2240 | 140 |