TPU v5p
En este documento se describen la arquitectura y las configuraciones admitidas de la versión 5p de TPU de Cloud.
Arquitectura del sistema
En esta sección se describe la arquitectura del sistema específica de la versión v5p. Cada Tensor Core tiene cuatro unidades de matriz (MXU), una unidad vectorial y una unidad escalar.
Hay 8960 chips en un pod v5p. La tarea más grande que se puede programar es un cubo de 96 (6144 chips).
En la siguiente tabla se muestran las especificaciones clave de la TPU v5p.
| Especificaciones principales | Valores v5p |
|---|---|
| Rendimiento máximo de cálculo por chip (BF16) | 459 TFLOPS |
| Capacidad y ancho de banda de HBM2e | 95 GB, 2765 GB/s |
| Tamaño del pod de TPUs | 8960 chips |
| Topología de interconexión | Toroide 3D * |
| Ancho de banda de interconexión entre chips (ICI) | 4800 Gbps |
Configuraciones
Un pod de TPU v5p está compuesto por 8960 chips interconectados con enlaces de alta velocidad reconfigurables. La red flexible de la TPU v5p te permite conectar los chips de una porción del mismo tamaño de varias formas.
En la siguiente tabla se muestran las formas de un solo segmento más habituales que se admiten en v5p, así como la mayoría (pero no todas) de las formas de cubo completo de más de un cubo. La forma máxima de v5p es 16x16x24 (6144 chips y 96 cubos).
| Topología | Núcleos | Chips | Hosts | Cubos | ¿Admite twisted? |
|---|---|---|---|---|---|
| 2x2x1 | 8 | 4 | 1 | N/A | N/A |
| 2x2x2 | 16 | 8 | 2 | N/A | N/A |
| 2x4x4 | 64 | 32 | 8 | N/A | N/A |
| 4x4x4 | 128 | 64 | 16 | 1 | N/A |
| 4x4x8 | 256 | 128 | 32 | 2 | Sí |
| 4x8x8 | 512 | 256 | 64 | 4 | Sí |
| 8x8x8 | 1024 | 512 | 128 | 8 | N/A |
| 8x8x16 | 2048 | 1024 | 256 | 16 | Sí |
| 8x16x16 | 4096 | 2048 | 512 | 32 | Sí |
| 16x16x16 | 8192 | 4096 | 1024 | 64 | N/A |
| 16x16x24 | 12288 | 6144 | 1536 | 96 | N/A |
El entrenamiento de una sola porción se admite en hasta 6144 chips. Puedes ampliar hasta 18.432 chips con Multislice. Para obtener más información sobre Multislice, consulta el artículo Introducción a Multislice de la TPU de Cloud.
Resistencia de ICI de TPU de Cloud
La resiliencia de ICI ayuda a mejorar la tolerancia a fallos de los enlaces ópticos y los conmutadores de circuitos ópticos (OCS) que conectan las TPUs entre cubos. Las conexiones ICI de un cubo usan enlaces de cobre que no se ven afectados. La resiliencia de ICI permite que las conexiones ICI se enruten para evitar los errores de ICI ópticos y de OCS. Como resultado, se mejora la disponibilidad de programación de las porciones de TPU, pero se produce una degradación temporal del rendimiento de ICI.
Al igual que en Cloud TPU v4, la resiliencia de ICI está habilitada de forma predeterminada en los sectores de la versión 5p que tienen un cubo o más (topología 4x4x4).
Propiedades de la VM, el host y el segmento
| Propiedad | Valor de una TPU |
|---|---|
| Número de chips v5p | 4 |
| Número de vCPUs | 208 (solo se puede usar la mitad si se usa el enlace NUMA para evitar la penalización del rendimiento entre NUMAs) |
| RAM (GB) | 448 (solo se puede usar la mitad si se usa el enlace NUMA para evitar la penalización del rendimiento entre NUMAs) |
| Número de nodos NUMA | 2 |
| Rendimiento de NIC (Gbps) | 200 |
Relación entre el número de Tensor Cores, chips, hosts/VMs y cubos de un pod:
| Núcleos | Chips | Hosts o VMs | Cubos | |
|---|---|---|---|---|
| Anfitrión | 8 | 4 | 1 | |
| Cube (rack) | 128 | 64 | 16 | 1 |
| Tamaño máximo de la porción admitida | 12288 | 6144 | 1536 | 96 |
| Pod completo v5p | 17920 | 8960 | 2240 | 140 |