TPU v5p

Questo documento descrive l'architettura e le configurazioni supportate di Cloud TPU v5p.

Architettura di sistema

Questa sezione descrive l'architettura del sistema specifica della versione v5p. Ogni Tensor Core ha quattro unità di moltiplicazione a matrice (MXU), un'unità vettoriale e un'unità scalare.

Un pod v5p contiene 8960 chip. Il job più grande che può essere pianificato è un job di 96 cubi (6144 chip).

La tabella seguente mostra le specifiche principali della TPU v5p.

Specifica Valori
Numero di chip per pod 8960
Picco di calcolo per chip (BF16) (TFLOP) 459
Picco di calcolo per chip (FP8) (TFLOP) 459
Capacità HBM per chip (GiB) 95
Larghezza di banda HBM per chip (GBps) 2765
Numero di vCPU (VM a 4 chip) 208
RAM (GB) (VM a 4 chip) 448
Numero di Tensor Core per chip 2
Numero di SparseCore per chip 4
Larghezza di banda bidirezionale di interconnessione inter-chip (ICI) per chip (GBps) 1200
Larghezza di banda della rete del data center (DCN) per chip (Gbps) 50
Topologia di interconnessione Toro 3D *

Configurazioni

Un pod TPU v5p è composto da 8960 chip interconnessi con link riconfigurabili ad alta velocità. La rete flessibile della TPU v5p ti consente di connettere i chip in una sezione delle stesse dimensioni in più modi.

La tabella seguente mostra le forme a singola fetta più comuni supportate con v5p, oltre alla maggior parte (ma non tutte) delle forme a cubo intero maggiori di un cubo. La forma massima v5p è 16x16x24 (6144 chip, 96 cubi).

Topologia Core Chip Hosting Cubi Supporta la torsione?
2x2x1 8 4 1 N/D N/D
2x2x2 16 8 2 N/D N/D
2x4x4 64 32 8 N/D N/D
4x4x4 128 64 16 1 N/D
4x4x8 256 128 32 2
4x8x8 512 256 64 4
8x8x8 1024 512 128 8 N/D
8x8x16 2048 1024 256 16
8x16x16 4096 2048 512 32
16x16x16 8192 4096 1024 64 N/D
16x16x24 12288 6144 1536 96 N/D

L'addestramento a una sola fetta è supportato per un massimo di 6144 chip. Puoi scalare fino a 18.432 chip utilizzando Multislice. Per maggiori informazioni su Multislice, consulta la panoramica di Cloud TPU Multislice.

Resilienza dell'ICI di Cloud TPU

La resilienza dell'ICI contribuisce a migliorare la tolleranza agli errori dei collegamenti ottici e degli interruttori di circuiti ottici (OCS) che collegano le TPU tra i cubi. (le connessioni ICI all'interno di un cubo utilizzano collegamenti in rame che non sono interessati). La resilienza ICI consente di instradare le connessioni ICI intorno ai guasti OCS e ICI ottici. Di conseguenza, migliora la disponibilità di pianificazione degli slice TPU, con il compromesso di un degrado temporaneo delle prestazioni ICI.

Analogamente a Cloud TPU v4, la resilienza ICI è abilitata per impostazione predefinita per le sezioni v5p che sono un cubo o più grandi (topologia 4x4x4).

Proprietà di VM, host e slice

Proprietà Valore di una TPU
Numero di chip v5p 4
Numero di vCPU 208 (solo la metà è utilizzabile se si utilizza il binding NUMA per evitare penalità di rendimento cross-NUMA)
RAM (GB) 448 (solo la metà è utilizzabile se si utilizza il binding NUMA per evitare penalità di prestazioni cross-NUMA)
# of NUMA nodes 2
Throughput NIC (Gbps) 200

Relazione tra il numero di Tensor Core, chip, host/VM e cubi in un pod:

Core Chip Host/VM Cubi
Organizzatore 8 4 1
Cube (rack) 128 64 16 1
Fetta più grande supportata 12288 6144 1536 96
v5p full Pod 17920 8960 2240 140