TPU v5p

Este documento descreve a arquitetura e as configurações suportadas da Cloud TPU v5p.

Arquitetura do sistema

Esta secção descreve a arquitetura do sistema específica da versão v5p. Cada TensorCore tem quatro unidades de multiplicação de matrizes (MXU), uma unidade vetorial e uma unidade escalar.

Existem 8960 chips num Pod v5p. A tarefa mais extensa que pode ser agendada é uma tarefa de 96 cubos (6144 chips).

A tabela seguinte mostra as especificações principais da TPU v5p.

Principais especificações Valores v5p
Pico de computação por chip (BF16) 459 TFLOPs
Capacidade e largura de banda da HBM2e 95 GB, 2765 GBps
Tamanho do pod TPU 8960 chips
Topologia de interligação Toro 3D *
Largura de banda da interligação entre chips (ICI) 4800 Gbps

Configurações

Um pod de TPUs v5p é composto por 8960 chips interligados com ligações de alta velocidade reconfiguráveis. A rede flexível da TPU v5p permite-lhe ligar os chips numa fatia do mesmo tamanho de várias formas.

A tabela seguinte mostra as formas de fatia única mais comuns suportadas com v5p, bem como a maioria (mas não todas) das formas de cubo completo superiores a 1 cubo. A forma v5p máxima é 16x16x24 (6144 chips, 96 cubos).

Topologia Núcleos Batatas fritas Anfitriões Cubos Suporta o formato torcido?
2x2x1 8 4 1 N/A N/A
2x2x2 16 8 2 N/A N/A
2x4x4 64 32 8 N/A N/A
4x4x4 128 64 16 1 N/A
4x4x8 256 128 32 2 Sim
4x8x8 512 256 64 4 Sim
8x8x8 1024 512 128 8 N/A
8x8x16 2048 1024 256 16 Sim
8x16x16 4096 2048 512 32 Sim
16x16x16 8192 4096 1024 64 N/A
16x16x24 12288 6144 1536 96 N/A

O treino de fatia única é suportado para até 6144 chips. Pode aumentar a escala até 18 432 chips com o Multislice. Para mais informações sobre o Multislice, consulte o artigo Vista geral do Multislice do Cloud TPU.

Resiliência da ICI do Cloud TPU

A resiliência da ICI ajuda a melhorar a tolerância a falhas das ligações óticas e dos comutadores de circuitos óticos (OCS) que ligam as TPUs entre os cubos. (As ligações ICI num cubo usam ligações de cobre que não são afetadas). A resiliência da ICI permite que as ligações ICI sejam encaminhadas em torno de falhas da ICI ótica e do OCS. Como resultado, melhora a disponibilidade de agendamento de fatias de TPU, com a desvantagem de uma degradação temporária no desempenho do ICI.

Semelhante ao Cloud TPU v4, a resiliência da ICI está ativada por predefinição para fatias v5p com um cubo ou mais (topologia 4x4x4).

Propriedades da VM, do anfitrião e da fatia

Propriedade Valor num TPU
# of v5p chips 4
# de vCPUs 208 (apenas metade é utilizável se usar a associação NUMA para evitar a penalização de desempenho entre NUMAs)
RAM (GB) 448 (apenas metade é utilizável se usar a associação NUMA para evitar a penalização de desempenho entre NUMAs)
# of NUMA nodes 2
Débito da NIC (Gbps) 200

Relação entre o número de TensorCores, chips, anfitriões/MV e cubos num Pod:

Núcleos Batatas fritas Anfitriões/VMs Cubos
Anfitrião 8 4 1
Cube (rack) 128 64 16 1
Maior fatia suportada 12288 6144 1536 96
v5p full Pod 17920 8960 2240 140