TPU v5p
Este documento descreve a arquitetura e as configurações disponíveis no Cloud TPU v5p.
Arquitetura do sistema
Esta seção descreve a arquitetura do sistema específica da versão v5p. Cada TensorCore tem quatro unidades de multiplicação de matrizes (MXU), uma unidade vetorial e uma escalar.
Há 8.960 chips em uma única fração da v5p. O maior job que pode ser programado é um cubo de 96 (6.144 chips).
A tabela a seguir mostra as principais especificações de uma v5p.
| Principais especificações | Valores da v5p |
|---|---|
| Pico de computação por chip (bf16) | 459 TFLOPs |
| Capacidade e largura de banda do HBM2e | 95 GB, 2765 GBps |
| Tamanho do Pod de TPU | 8.960 chips |
| Topologia de interconexão | Toro 3D* |
| Interconexão entre chips BW | 4800 Gbps |
Configurações
Um Pod de TPU v5p é composto por 8.960 chips interconectados com links de alta velocidade
reconfiguráveis. A rede flexível da TPU v5p permite conectar os chips em uma fração
do mesmo tamanho de várias maneiras. Ao criar uma fração de TPU usando o comando
gcloud compute tpus tpu-vm create, especifique o tipo e o formato
usando o parâmetro AcceleratorType.
A tabela a seguir mostra os formatos de fração única mais comuns aceitos com a v5p, além da maioria (mas não todas) dos formatos de cubo inteiro maiores que um cubo. O formato máximo da v5p é 16x16x24 (6.144 chips, 96 cubos).
| Topologia | Núcleos | Chips | Hosts | Cubos | Aceita toros torcidos? |
| 2x2x1 | 8 | 4 | 1 | N/D | N/D |
| 2x2x2 | 16 | 8 | 2 | N/D | N/D |
| 2x4x4 | 64 | 32 | 8 | N/D | N/D |
| 4x4x4 | 128 | 64 | 16 | 1 | N/D |
| 4x4x8 | 256 | 128 | 32 | 2 | Sim |
| 4x8x8 | 512 | 256 | 64 | 4 | Sim |
| 8x8x8 | 1024 | 512 | 128 | 8 | N/D |
| 8x8x16 | 2048 | 1024 | 256 | 16 | Sim |
| 8x16x16 | 4096 | 2048 | 512 | 32 | Sim |
| 16x16x16 | 8192 | 4096 | 1024 | 64 | N/D |
| 16x16x24 | 12.288 | 6144 | 1536 | 96 | N/D |
O treinamento de fração única é aceito com até 6.144 chips. É possível escalonar verticalmente para até 18.432 chips usando várias frações. Para mais informações sobre o uso de várias frações, consulte Visão geral do uso de várias frações no Cloud TPU.
Como usar o parâmetro AcceleratorType
Ao alocar recursos de TPU, use o argumento --accelerator-type para especificar o
número de TensorCores em uma fração. --accelerator-type é uma
string formatada v$VERSION_NUMBERp-$CORES_COUNT.
Por exemplo, v5p-32 especifica uma fração de TPU v5p com 32 TensorCores (16 chips).
Para provisionar TPUs para um job de treinamento da v5p, use um dos seguintes tipos de acelerador na solicitação de criação de TPU da CLI ou da API:
- v5p-8
- v5p-16
- v5p-32
- v5p-64
- v5p-128 (um cubo/rack inteiro)
- v5p-256 (dois cubos)
- v5p-512
- v5p-1024 ... v5p-12288
O comando abaixo cria uma fração de TPU v5p com 256 TensorCores da v5p (128 chips) para treinamento:
$ gcloud compute tpus tpu-vm create your-tpu-name \ --zone=us-east5-a \ --accelerator-type=v5p-256 \ --version=v2-alpha-tpuv5
Para saber como gerenciar TPUs, consulte Gerenciar TPUs. Para mais informações sobre a arquitetura do sistema do Cloud TPU, consulte Arquitetura do sistema.
Resiliência da ICI do Cloud TPU
A resiliência da ICI ajuda a melhorar a tolerância a falhas de links ópticos e interruptores de circuito óptico (OCS) que conectam as TPUs entre os cubos. As conexões da ICI em um cubo usam links de cobre que não são afetados. A resiliência da ICI permite que as conexões da ICI sejam roteadas em torno de falhas do OCS e de falhas ópticas da ICI. Isso melhora a disponibilidade de programação das frações de TPU, com o efeito negativo de uma degradação temporária no desempenho da ICI.
Assim como no Cloud TPU v4, a resiliência da ICI é ativada por padrão para frações da v5p de um cubo ou maiores:
- v5p-128 ao especificar o tipo de acelerador
- 4x4x4 ao especificar a configuração do acelerador
Propriedades de VM, host e fração
| Propriedade | Valor em uma TPU |
| Número de chips da v5p | 4 |
| Número de vCPUs | 208 (apenas metade é utilizável ao usar a vinculação NUMA para evitar penalidades de desempenho entre NUMAs) |
| RAM (GB) | 448 (apenas metade é utilizável ao usar a vinculação NUMA para evitar penalidades de desempenho entre NUMAs) |
| Número de nós NUMA | 2 |
| Capacidade de processamento da NIC (Gbps) | 200 |
Relação entre o número de TensorCores, chips, hosts/VMs e cubos em um pod:
| Núcleos | Chips | Hosts/VMs | Cubos | |
|---|---|---|---|---|
| Host | 8 | 4 | 1 | |
| Cubo (também conhecido como rack) | 128 | 64 | 16 | 1 |
| Maior fração aceita | 12.288 | 6144 | 1536 | 96 |
| Pod completo da v5p | 17920 | 8960 | 2240 | 140 |