Esta página se ha traducido con Cloud Translation API.

TPU v5p

En este documento se describen la arquitectura y las configuraciones admitidas de la versión 5p de TPU de Cloud.

Arquitectura del sistema

En esta sección se describe la arquitectura del sistema específica de la versión v5p. Cada Tensor Core tiene cuatro unidades de matriz (MXU), una unidad vectorial y una unidad escalar.

Hay 8960 chips en un pod v5p. La tarea más grande que se puede programar es un cubo de 96 (6144 chips).

En la siguiente tabla se muestran las especificaciones clave de la TPU v5p.

Especificaciones principales	Valores v5p
Rendimiento máximo de cálculo por chip (BF16)	459 TFLOPS
Capacidad y ancho de banda de HBM2e	95 GB, 2765 GB/s
Tamaño del pod de TPUs	8960 chips
Topología de interconexión	Toroide 3D *
Ancho de banda de interconexión entre chips (ICI)	4800 Gbps

Configuraciones

Un pod de TPU v5p está compuesto por 8960 chips interconectados con enlaces de alta velocidad reconfigurables. La red flexible de la TPU v5p te permite conectar los chips de una porción del mismo tamaño de varias formas.

En la siguiente tabla se muestran las formas de un solo segmento más habituales que se admiten en v5p, así como la mayoría (pero no todas) de las formas de cubo completo de más de un cubo. La forma máxima de v5p es 16x16x24 (6144 chips y 96 cubos).

Topología	Núcleos	Chips	Hosts	Cubos	¿Admite twisted?
2x2x1	8	4	1	N/A	N/A
2x2x2	16	8	2	N/A	N/A
2x4x4	64	32	8	N/A	N/A
4x4x4	128	64	16	1	N/A
4x4x8	256	128	32	2	Sí
4x8x8	512	256	64	4	Sí
8x8x8	1024	512	128	8	N/A
8x8x16	2048	1024	256	16	Sí
8x16x16	4096	2048	512	32	Sí
16x16x16	8192	4096	1024	64	N/A
16x16x24	12288	6144	1536	96	N/A

El entrenamiento de una sola porción se admite en hasta 6144 chips. Puedes ampliar hasta 18.432 chips con Multislice. Para obtener más información sobre Multislice, consulta el artículo Introducción a Multislice de la TPU de Cloud.

Resistencia de ICI de TPU de Cloud

La resiliencia de ICI ayuda a mejorar la tolerancia a fallos de los enlaces ópticos y los conmutadores de circuitos ópticos (OCS) que conectan las TPUs entre cubos. Las conexiones ICI de un cubo usan enlaces de cobre que no se ven afectados. La resiliencia de ICI permite que las conexiones ICI se enruten para evitar los errores de ICI ópticos y de OCS. Como resultado, se mejora la disponibilidad de programación de las porciones de TPU, pero se produce una degradación temporal del rendimiento de ICI.

Al igual que en Cloud TPU v4, la resiliencia de ICI está habilitada de forma predeterminada en los sectores de la versión 5p que tienen un cubo o más (topología 4x4x4).

Propiedades de la VM, el host y el segmento

Propiedad	Valor de una TPU
Número de chips v5p	4
Número de vCPUs	208 (solo se puede usar la mitad si se usa el enlace NUMA para evitar la penalización del rendimiento entre NUMAs)
RAM (GB)	448 (solo se puede usar la mitad si se usa el enlace NUMA para evitar la penalización del rendimiento entre NUMAs)
Número de nodos NUMA	2
Rendimiento de NIC (Gbps)	200

Relación entre el número de Tensor Cores, chips, hosts/VMs y cubos de un pod:

	Núcleos	Chips	Hosts o VMs	Cubos
Anfitrión	8	4	1
Cube (rack)	128	64	16	1
Tamaño máximo de la porción admitida	12288	6144	1536	96
Pod completo v5p	17920	8960	2240	140