TPU v5p

Questo documento descrive l'architettura e le configurazioni supportate di Cloud TPU v5p.

Architettura di sistema

Questa sezione descrive l'architettura del sistema specifica della versione v5p. Ogni Tensor Core ha quattro unità di moltiplicazione a matrice (MXU), un'unità vettoriale e un'unità scalare.

Un pod v5p contiene 8960 chip. Il job più grande che può essere pianificato è un job di 96 cubi (6144 chip).

La tabella seguente mostra le specifiche chiave per la TPU v5p.

Specifiche principali Valori v5p
Picco di calcolo per chip (BF16) 459 TFLOP
Capacità e larghezza di banda HBM2e 95 GB, 2765 GBps
Dimensioni pod di TPU 8960 chip
Topologia di interconnessione Toro 3D *
Larghezza di banda dell'interconnessione inter-chip (ICI) 4800 Gbps

Configurazioni

Un pod TPU v5p è composto da 8960 chip interconnessi con link riconfigurabili ad alta velocità. Il networking flessibile della TPU v5p ti consente di connettere i chip in una sezione delle stesse dimensioni in più modi.

La tabella seguente mostra le forme a una sola fetta più comuni supportate con v5p, oltre alla maggior parte (ma non tutte) delle forme a cubo intero maggiori di un cubo. La forma massima di v5p è 16x16x24 (6144 chip, 96 cubi).

Topologia Core Chip Hosting Cubi Supporta la torsione?
2x2x1 8 4 1 N/D N/D
2x2x2 16 8 2 N/D N/D
2x4x4 64 32 8 N/D N/D
4x4x4 128 64 16 1 N/D
4x4x8 256 128 32 2
4x8x8 512 256 64 4
8x8x8 1024 512 128 8 N/D
8x8x16 2048 1024 256 16
8x16x16 4096 2048 512 32
16x16x16 8192 4096 1024 64 N/D
16x16x24 12288 6144 1536 96 N/D

L'addestramento a una sola fetta è supportato per un massimo di 6144 chip. Puoi scalare fino a 18432 chip utilizzando Multislice. Per saperne di più su Multislice, consulta la panoramica di Cloud TPU Multislice.

Resilienza dell'ICI di Cloud TPU

La resilienza dell'ICI contribuisce a migliorare la tolleranza agli errori dei collegamenti ottici e degli interruttori di circuiti ottici (OCS) che collegano le TPU tra i cubi. (le connessioni ICI all'interno di un cubo utilizzano collegamenti in rame che non sono interessati). La resilienza ICI consente di instradare le connessioni ICI intorno ai guasti OCS e ICI ottici. Di conseguenza, migliora la disponibilità di pianificazione degli slice TPU, con il compromesso di un peggioramento temporaneo delle prestazioni ICI.

Analogamente a Cloud TPU v4, la resilienza ICI è abilitata per impostazione predefinita per le sezioni v5p che sono un cubo o più grandi (topologia 4x4x4).

Proprietà di VM, host e slice

Proprietà Valore in una TPU
Numero di chip v5p 4
Numero di vCPU 208 (solo la metà è utilizzabile se si utilizza il binding NUMA per evitare penalità di rendimento cross-NUMA)
RAM (GB) 448 (solo la metà è utilizzabile se si utilizza il binding NUMA per evitare penalità di prestazioni cross-NUMA)
# of NUMA nodes 2
Throughput NIC (Gbps) 200

Relazione tra il numero di Tensor Core, chip, host/VM e cubi in un pod:

Core Chip Host/VM Cubi
Organizzatore 8 4 1
Cube (rack) 128 64 16 1
Fetta più grande supportata 12288 6144 1536 96
v5p full Pod 17920 8960 2240 140