TPU v5p
Este documento descreve a arquitetura e as configurações suportadas da Cloud TPU v5p.
Arquitetura do sistema
Esta secção descreve a arquitetura do sistema específica da versão v5p. Cada TensorCore tem quatro unidades de multiplicação de matrizes (MXU), uma unidade vetorial e uma unidade escalar.
Existem 8960 chips num Pod v5p. A tarefa mais extensa que pode ser agendada é uma tarefa de 96 cubos (6144 chips).
A tabela seguinte mostra as especificações principais da TPU v5p.
| Principais especificações | Valores v5p |
|---|---|
| Pico de computação por chip (BF16) | 459 TFLOPs |
| Capacidade e largura de banda da HBM2e | 95 GB, 2765 GBps |
| Tamanho do pod TPU | 8960 chips |
| Topologia de interligação | Toro 3D * |
| Largura de banda da interligação entre chips (ICI) | 4800 Gbps |
Configurações
Um pod de TPUs v5p é composto por 8960 chips interligados com ligações de alta velocidade reconfiguráveis. A rede flexível da TPU v5p permite-lhe ligar os chips numa fatia do mesmo tamanho de várias formas.
A tabela seguinte mostra as formas de fatia única mais comuns suportadas com v5p, bem como a maioria (mas não todas) das formas de cubo completo superiores a 1 cubo. A forma v5p máxima é 16x16x24 (6144 chips, 96 cubos).
| Topologia | Núcleos | Batatas fritas | Anfitriões | Cubos | Suporta o formato torcido? |
|---|---|---|---|---|---|
| 2x2x1 | 8 | 4 | 1 | N/A | N/A |
| 2x2x2 | 16 | 8 | 2 | N/A | N/A |
| 2x4x4 | 64 | 32 | 8 | N/A | N/A |
| 4x4x4 | 128 | 64 | 16 | 1 | N/A |
| 4x4x8 | 256 | 128 | 32 | 2 | Sim |
| 4x8x8 | 512 | 256 | 64 | 4 | Sim |
| 8x8x8 | 1024 | 512 | 128 | 8 | N/A |
| 8x8x16 | 2048 | 1024 | 256 | 16 | Sim |
| 8x16x16 | 4096 | 2048 | 512 | 32 | Sim |
| 16x16x16 | 8192 | 4096 | 1024 | 64 | N/A |
| 16x16x24 | 12288 | 6144 | 1536 | 96 | N/A |
O treino de fatia única é suportado para até 6144 chips. Pode aumentar a escala até 18 432 chips com o Multislice. Para mais informações sobre o Multislice, consulte o artigo Vista geral do Multislice do Cloud TPU.
Resiliência da ICI do Cloud TPU
A resiliência da ICI ajuda a melhorar a tolerância a falhas das ligações óticas e dos comutadores de circuitos óticos (OCS) que ligam as TPUs entre os cubos. (As ligações ICI num cubo usam ligações de cobre que não são afetadas). A resiliência da ICI permite que as ligações ICI sejam encaminhadas em torno de falhas da ICI ótica e do OCS. Como resultado, melhora a disponibilidade de agendamento de fatias de TPU, com a desvantagem de uma degradação temporária no desempenho do ICI.
Semelhante ao Cloud TPU v4, a resiliência da ICI está ativada por predefinição para fatias v5p com um cubo ou mais (topologia 4x4x4).
Propriedades da VM, do anfitrião e da fatia
| Propriedade | Valor num TPU |
|---|---|
| # of v5p chips | 4 |
| # de vCPUs | 208 (apenas metade é utilizável se usar a associação NUMA para evitar a penalização de desempenho entre NUMAs) |
| RAM (GB) | 448 (apenas metade é utilizável se usar a associação NUMA para evitar a penalização de desempenho entre NUMAs) |
| # of NUMA nodes | 2 |
| Débito da NIC (Gbps) | 200 |
Relação entre o número de TensorCores, chips, anfitriões/MV e cubos num Pod:
| Núcleos | Batatas fritas | Anfitriões/VMs | Cubos | |
|---|---|---|---|---|
| Anfitrião | 8 | 4 | 1 | |
| Cube (rack) | 128 | 64 | 16 | 1 |
| Maior fatia suportada | 12288 | 6144 | 1536 | 96 |
| v5p full Pod | 17920 | 8960 | 2240 | 140 |