TPU v5p
Questo documento descrive l'architettura e le configurazioni supportate di Cloud TPU v5p.
Architettura di sistema
Questa sezione descrive l'architettura di sistema specifica della versione v5p. Ogni TensorCore ha quattro unità di moltiplicazione a matrice (MXU), un'unità vettoriale e un'unità scalare.
In un pod v5p sono presenti 8960 chip. Il job più grande che può essere pianificato è un job di 96 cubi (6144 chip).
La tabella seguente mostra le specifiche chiave per TPU v5p.
| Specifica | Valori |
|---|---|
| Numero di chip per pod | 8960 |
| Calcolo di picco per chip (BF16) (TFLOP) | 459 |
| Calcolo di picco per chip (FP8) (TFLOP) | 459 |
| Capacità HBM per chip (GiB) | 95 |
| Larghezza di banda HBM per chip (GiBps) | 2575 |
| Numero di vCPU (VM a 4 chip) | 208 |
| RAM (GB) (VM a 4 chip) | 448 |
| Numero di TensorCore per chip | 2 |
| Numero di SparseCore per chip | 4 |
| Larghezza di banda di interconnessione inter-chip (ICI) bidirezionale per chip (GBps) | 1200 |
| Larghezza di banda della rete del data center (DCN) per chip (Gbps) | 50 |
| Topologia di interconnessione | Toro 3D * |
Configurazioni
Un pod TPU v5p è composto da 8960 chip interconnessi con link ad alta velocità riconfigurabili. La rete flessibile di TPU v5p ti consente di collegare i chip in una sezione di dimensioni uguali in più modi.
La tabella seguente mostra le forme di sezione singola più comuni supportate con v5p, oltre alla maggior parte (ma non tutte) delle forme di cubo completo maggiori di 1 cubo. La forma v5p massima è 16x16x24 (6144 chip, 96 cubi).
| Topologia | Core | Chip | Hosting | Cubi | Supporta la torsione? |
|---|---|---|---|---|---|
| 2x2x1 | 8 | 4 | 1 | N/D | N/D |
| 2x2x2 | 16 | 8 | 2 | N/D | N/D |
| 2x4x4 | 64 | 32 | 8 | N/D | N/D |
| 4x4x4 | 128 | 64 | 16 | 1 | N/D |
| 4x4x8 | 256 | 128 | 32 | 2 | Sì |
| 4x8x8 | 512 | 256 | 64 | 4 | Sì |
| 8x8x8 | 1024 | 512 | 128 | 8 | N/D |
| 8x8x16 | 2048 | 1024 | 256 | 16 | Sì |
| 8x16x16 | 4096 | 2048 | 512 | 32 | Sì |
| 16x16x16 | 8192 | 4096 | 1024 | 64 | N/D |
| 16x16x24 | 12288 | 6144 | 1536 | 96 | N/D |
L'addestramento a sezione singola è supportato per un massimo di 6144 chip. Puoi fare lo scale up fino a 18432 chip utilizzando Multislice. Per saperne di più su Multislice, consulta la panoramica di Cloud TPU Multislice.
Resilienza ICI di Cloud TPU
La resilienza ICI contribuisce a migliorare la tolleranza agli errori dei link ottici e degli switch di circuiti ottici (OCS) che collegano le TPU tra i cubi. (Le connessioni ICI all'interno di un cubo utilizzano link in rame che non sono interessati). La resilienza ICI consente di instradare le connessioni ICI intorno a OCS e guasti ICI ottici. Di conseguenza, migliora la disponibilità di pianificazione delle sezioni TPU, con il compromesso di un degrado temporaneo delle prestazioni ICI.
Analogamente a Cloud TPU v4, la resilienza ICI è abilitata per impostazione predefinita per le sezioni v5p di un cubo o più grandi (topologia 4x4x4).
Proprietà di VM, host e sezioni
| Proprietà | Valore in una TPU |
|---|---|
| Numero di chip v5p | 4 |
| Numero di vCPU | 208 (solo la metà è utilizzabile se si utilizza il binding NUMA per evitare la penalità di prestazioni cross-NUMA) |
| RAM (GB) | 448 (solo la metà è utilizzabile se si utilizza il binding NUMA per evitare la penalità di prestazioni cross-NUMA) |
| Numero di nodi NUMA | 2 |
| Velocità effettiva NIC (Gbps) | 200 |
Relazione tra il numero di TensorCore, chip, host/VM e cubi in un pod:
| Core | Chip | Host/VM | Cubi | |
|---|---|---|---|---|
| Host | 8 | 4 | 1 | |
| Cubo (rack) | 128 | 64 | 16 | 1 |
| Sezione più grande supportata | 12288 | 6144 | 1536 | 96 |
| Pod completo v5p | 17920 | 8960 | 2240 | 140 |