TPU v5p
En este documento, se describen la arquitectura y los parámetros de configuración admitidos de Cloud TPU v5p.
Arquitectura del sistema
En esta sección, se describe la arquitectura del sistema específica de la versión v5p. Cada TensorCore tiene cuatro unidades de multiplicación de matrices (MXU), una unidad vectorial y una unidad escalar.
Hay 8,960 chips en un Pod de TPU v5p. El trabajo más grande que se puede programar es un trabajo de 96 cubos (6,144 chips).
En la siguiente tabla, se muestran las especificaciones clave de la TPU v5p.
| Especificaciones clave | Valores de v5p |
|---|---|
| Procesamiento máximo por chip (BF16) | 459 TFLOPS |
| Capacidad y ancho de banda de HBM2e | 95 GB, 2,765 GBps |
| Tamaño del pod de TPU | 8,960 chips |
| Topología de interconexión | Toro 3D * |
| Ancho de banda de interconexión entre chips (ICI) | 4,800 Gbps |
Configuraciones
Un pod de TPU v5p se compone de 8,960 chips interconectados con vínculos de alta velocidad reconfigurables. La red flexible de la TPU v5p te permite conectar los chips de una porción del mismo tamaño de varias maneras.
En la siguiente tabla, se muestran las formas de una sola porción más comunes que se admiten con v5p, además de la mayoría (pero no todas) de las formas de cubo completo mayores que 1 cubo. La forma máxima de v5p es 16 x 16 x 24 (6, 144 chips y 96 cubos).
| Topología | Núcleos | Chips | Hosts | Cubes | ¿Admite cables trenzados? |
|---|---|---|---|---|---|
| 2x2x1 | 8 | 4 | 1 | N/A | N/A |
| 2x2x2 | 16 | 8 | 2 | N/A | N/A |
| 2x4x4 | 64 | 32 | 8 | N/A | N/A |
| 4x4x4 | 128 | 64 | 16 | 1 | N/A |
| 4x4x8 | 256 | 128 | 32 | 2 | Sí |
| 4x8x8 | 512 | 256 | 64 | 4 | Sí |
| 8x8x8 | 1024 | 512 | 128 | 8 | N/A |
| 8x8x16 | 2,048 | 1024 | 256 | 16 | Sí |
| 8x16x16 | 4096 | 2,048 | 512 | 32 | Sí |
| 16 x 16 x 16 | 8192 | 4096 | 1024 | 64 | N/A |
| 16x16x24 | 12288 | 6144 | 1,536 | 96 | N/A |
Se admite el entrenamiento de una sola porción para hasta 6,144 chips. Puedes escalar hasta 18,432 chips con Multislice. Para obtener más información sobre Multislice, consulta Descripción general de Cloud TPU Multislice.
Resiliencia del ICI de Cloud TPU
La resiliencia de ICI ayuda a mejorar la tolerancia a errores de los vínculos ópticos y los conmutadores de circuitos ópticos (OCS) que conectan las TPU entre cubos. (Las conexiones ICI dentro de un cubo usan vínculos de cobre que no se ven afectados). La resiliencia de ICI permite que las conexiones ICI se enruten alrededor de las fallas de OCS y de ICI ópticas. Como resultado, mejora la disponibilidad de la programación de las porciones de TPU, con la desventaja de una degradación temporal en el rendimiento del ICI.
Al igual que con la Cloud TPU v4, la resiliencia del ICI está habilitada de forma predeterminada para las porciones de v5p que son de un cubo o más grandes (topología de 4x4x4).
Propiedades de la VM, el host y la división
| Propiedad | Valor en una TPU |
|---|---|
| Cantidad de chips v5p | 4 |
| Cantidad de CPU virtuales | 208 (solo la mitad es utilizable si se usa la vinculación de NUMA para evitar la penalización de rendimiento entre NUMA) |
| RAM (GB) | 448 (solo la mitad es utilizable si se usa la vinculación de NUMA para evitar la penalización del rendimiento entre NUMA) |
| Cantidad de nodos de NUMA | 2 |
| Capacidad de procesamiento de la NIC (Gbps) | 200 |
Relación entre la cantidad de TensorCores, chips, hosts/VMs y cubos en un pod:
| Núcleos | Chips | Hosts o VMs | Cubes | |
|---|---|---|---|---|
| Host | 8 | 4 | 1 | |
| Cube (bastidor) | 128 | 64 | 16 | 1 |
| Segmento más grande admitido | 12288 | 6144 | 1,536 | 96 |
| Pod v5p completo | 17920 | 8960 | 2240 | 140 |