Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

TPU v5e

Este documento descreve a arquitetura e as configurações suportadas da Cloud TPU v5e.

A TPU v5e suporta a preparação de anfitriões únicos e múltiplos, bem como a inferência de anfitriões únicos. A inferência com vários anfitriões é suportada através do Sax. Para mais informações, consulte o artigo Inferência de TPU na nuvem.

Arquitetura do sistema

Cada chip v5e contém um TensorCore. Cada TensorCore tem quatro unidades de multiplicação de matrizes (MXUs), uma unidade vetorial e uma unidade escalar.

O diagrama seguinte ilustra um chip TPU v5e.

Diagrama de um chip v5e

A tabela seguinte mostra as especificações principais do chip e os respetivos valores para a v5e.

Principais especificações do chip	Valores v5e
Capacidade de computação máxima por chip (bf16)	197 TFLOPs
Capacidade e largura de banda da HBM2	16 GB, 819 GBps
Largura de banda de interligação entre chips (ICI) bidirecional (por chip)	400 GBps

A tabela seguinte mostra as especificações do Pod e os respetivos valores para a v5e.

Especificações principais do Key Pod	Valores v5e
Tamanho do pod TPU	256 chips
Topologia de interligação	Toro 2D
Pico de computação por agrupamento	100 PetaOps (Int8)
Largura de banda de redução total por Pod	51,2 TBps
Largura de banda de bissecção por agrupamento	1,6 TBps
Largura de banda da rede do centro de dados por Pod	6,4 Tbps

Configurações

O Cloud TPU v5e é um produto combinado de preparação e inferência (serviço). As tarefas de preparação são otimizadas para o débito e a disponibilidade, enquanto as tarefas de publicação são otimizadas para a latência. Uma tarefa de preparação em TPUs aprovisionadas para publicação pode ter uma disponibilidade inferior e, da mesma forma, uma tarefa de publicação executada em TPUs aprovisionadas para preparação pode ter uma latência mais elevada.

As seguintes formas de fatia 2D são suportadas para a v5e:

Topologia	Número de chips de TPU	Número de anfitriões
1x1	1	1/8
2x2	4	1/2
2x4	8	1
4x4	16	2
4x8	32	4
8x8	64	8
8x16	128	16
16x16	256	32

Tipos de VMs

Cada VM da TPU numa fatia de TPU v5e contém 1, 4 ou 8 chips. Em fatias de 4 chips ou menos, todos os chips da TPU partilham o mesmo nó de acesso à memória não uniforme (NUMA).

Para VMs de TPU v5e de 8 chips, a comunicação CPU-TPU é mais eficiente nas partições NUMA. Por exemplo, na figura seguinte, a comunicação CPU0-Chip0 é mais rápida do que a comunicação CPU0-Chip4.

Comunicação de nós NUMA

A tabela seguinte mostra uma comparação dos tipos de VMs de TPU v5e:

Tipo de VM	Tipo de máquina (API GKE)	Número de vCPUs por VM	RAM (GB) por MV	Número de nós NUMA por VM
VM de 1 chip	`ct5lp-hightpu-1t`	24	48	1
VM de 4 chips	`ct5lp-hightpu-4t`	112	192	1
VM com 8 chips	`ct5lp-hightpu-8t`	224	384	2

Tipos de Cloud TPU v5e para publicação

A publicação de host único é suportada para até 8 chips v5e. As seguintes configurações são suportadas: divisões de 1x1, 2x2 e 2x4. Cada fatia tem, respetivamente, 1, 4 e 8 chips.

Configurações de TPU v5e que suportam a publicação: 1x1, 2x2 e 2x4.

Para aprovisionar TPUs para uma tarefa de publicação, use um dos seguintes tamanhos de fatia de TPU no seu pedido de criação de TPU da CLI ou da API:

Número de chips de TPU	Tipo de máquina (API GKE)
`1`	`ct5lp-hightpu-1t`
`4`	`ct5lp-hightpu-4t`
`8`	`ct5lp-hightpu-8t`

Para mais informações sobre a gestão de TPUs, consulte o artigo Faça a gestão de TPUs. Para mais informações sobre a arquitetura do sistema da Cloud TPU, consulte o artigo Arquitetura do sistema.

A publicação em mais de 8 chips v5e, também denominada publicação em vários anfitriões, é suportada através do Sax. Para mais informações, consulte o artigo Inferência de TPU do Google Cloud.

Tipos de Cloud TPU v5e para preparação

A preparação é suportada para até 256 chips.

Para aprovisionar TPUs para uma tarefa de preparação v5e, use um dos seguintes tamanhos de fatia de TPU no seu pedido de criação de TPU da CLI ou da API:

Número de chips de TPU	Tipo de máquina (API GKE)	Topologia
`16`	`ct5lp-hightpu-4t`	4x4
`32`	`ct5lp-hightpu-4t`	4x8
`64`	`ct5lp-hightpu-4t`	8x8
`128`	`ct5lp-hightpu-4t`	8x16
`256`	`ct5lp-hightpu-4t`	16x16