TPU v6e
Questo documento descrive l'architettura e le configurazioni supportate di Cloud TPU v6e (Trillium). Su tutte le superfici tecniche, come l'API e i log, e in tutto questo documento, Trillium verrà indicato come v6e.
Con un footprint di 256 chip per pod, v6e condivide molte somiglianze con v5e. Questo sistema è ottimizzato per l'addestramento, il perfezionamento e la pubblicazione di transformer, reti neurali convoluzionali (CNN) e modelli di sintesi di immagini a partire da testo.
Architettura di sistema
Ogni chip v6e contiene un TensorCore. Ogni Tensor Core ha due unità di moltiplicazione a matrice (MXU), un'unità vettoriale e un'unità scalare. La tabella seguente mostra le specifiche chiave e i relativi valori per TPU v6e.
| Specifica | Valori |
|---|---|
| Rendimento/costo totale di proprietà (TCO) (previsto) | 1 |
| Picco di calcolo per chip (bf16) | 918 TFLOP |
| Picco di calcolo per chip (Int8) | 1836 TOPS |
| Capacità HBM per chip | 32 GB |
| Larghezza di banda HBM per chip | 1600 GBps |
| Larghezza di banda bidirezionale Inter-Chip Interconnect (ICI) (per chip) | 800 GBps |
| Porte ICI per chip | 4 |
| DRAM per host | 1536 GiB |
| Chip per host | 8 |
| Dimensioni pod di TPU | 256 chip |
| Topologia di interconnessione | Toro 2D |
| Picco di calcolo BF16 per pod | 234,9 PFLOP |
| Larghezza di banda di riduzione totale per pod | 102,4 TB/s |
| Larghezza di banda bisezionale per pod | 3,2 TB/s |
| Configurazione NIC per host | NIC 4 x 200 Gbps |
| Larghezza di banda della rete del data center per pod | 25,6 Tbps |
| Funzionalità speciali | SparseCore |
Configurazioni supportate
La tabella seguente mostra le forme delle sezioni 2D supportate per v6e:
| Topologia | Chip TPU | Hosting | VM | Tipo di macchina (API GKE) | Ambito |
|---|---|---|---|---|---|
| 1x1 | 1 | 1/8 | 1 | ct6e-standard-1t |
Sub-host |
| 2x2 | 4 | 1/2 | 1 | ct6e-standard-4t |
Sub-host |
| 2x4 | 8 | 1 | 1 | ct6e-standard-8t |
A host singolo |
| 2x4 | 8 | 1 | 2 | ct6e-standard-4t |
A host singolo |
| 4x4 | 16 | 2 | 4 | ct6e-standard-4t |
Multi-host |
| 4x8 | 32 | 4 | 8 | ct6e-standard-4t |
Multi-host |
| 8x8 | 64 | 8 | 16 | ct6e-standard-4t |
Multi-host |
| 8x16 | 128 | 16 | 32 | ct6e-standard-4t |
Multi-host |
| 16x16 | 256 | 32 | 64 | ct6e-standard-4t |
Multi-host |
Le sezioni con 8 chip (v6e-8) collegati a una singola VM sono ottimizzate per
l'inferenza, consentendo l'utilizzo di tutti gli 8 chip in un singolo carico di lavoro di servizio. Puoi
eseguire l'inferenza multihost utilizzando Pathways su Cloud. Per ulteriori informazioni, vedi
Eseguire l'inferenza multihost utilizzando Pathways.
Per informazioni sul numero di VM per ogni topologia, consulta Tipi di VM.
Tipi di VM
Ogni VM TPU v6e può contenere 1, 4 o 8 chip. Le sezioni da 4 chip e più piccole hanno lo stesso nodo NUMA (accesso alla memoria non uniforme). Per saperne di più sui nodi NUMA, consulta Non-uniform memory access su Wikipedia.

Le sezioni v6e vengono create utilizzando VM half-host, ciascuna con 4 chip TPU. Esistono due eccezioni a questa regola:
v6e-1: Una VM con un solo chip, principalmente destinata ai testv6e-8: una VM full-host ottimizzata per un caso d'uso di inferenza con tutti gli 8 chip collegati a una singola VM.
La tabella seguente mostra un confronto tra i tipi di VM TPU v6e:
| Tipo di VM | Numero di vCPU per VM | RAM (GB) per VM | Numero di nodi NUMA per VM |
|---|---|---|---|
| VM con 1 chip | 44 | 176 | 1 |
| VM a 4 chip | 180 | 720 | 1 |
| VM a 8 chip | 180 | 1440 | 2 |