TPU v6e

En este documento, se describen la arquitectura y los parámetros de configuración compatibles de Cloud TPU v6e (Trillium). En todas las plataformas técnicas, como la API y los registros, y en todo este documento, se hará referencia a Trillium como v6e.

Con una capacidad de 256 chips por Pod, v6e comparte muchas similitudes con v5e. Este sistema está optimizado para ser el producto de mayor valor para el entrenamiento, el ajuste y la entrega de transformadores, modelos de texto a imagen y redes neuronales convolucionales (CNN).

Arquitectura del sistema

Cada chip v6e contiene un TensorCore. Cada TensorCore tiene 2 unidades de multiplicación de matrices (MXU), una unidad vectorial y una unidad escalar. En la siguiente tabla, se muestran las especificaciones clave y sus valores para la TPU v6e en comparación con la TPU v5e.

Especificación v5e v6e
Rendimiento/costo total de propiedad (TCO) (esperado) 0.65x 1
Procesamiento máximo por chip (bf16) 197 TFLOPS 918 TFLOPS
Procesamiento máximo por chip (Int8) 393 TOPS 1,836 TOPS
Capacidad de HBM por chip 16 GB 32 GB
Ancho de banda de HBM por chip 800 Gbps 1,600 Gbps
Ancho de banda de interconexión entre chips (ICI) 1,600 Gbps 3,200 Gbps
Puertos de ICI por chip 4 4
DRAM por host 512 GiB 1,536 GiB
Chips por host 8 8
Tamaño del pod de TPU 256 chips 256 chips
Topología de interconexión Toro 2D Toro 2D
Cómputo máximo en BF16 por Pod 50.63 PFLOPS 234.9 PFLOPS
Ancho de banda total reducido por Pod 51.2 TB/s 102.4 TB/s
Ancho de banda de bisección por Pod 1.6 TB/s 3.2 TB/s
Configuración de NIC por host NIC de 2 x 100 Gbps NIC de 4 x 200 Gbps
Ancho de banda de la red del centro de datos por Pod 6.4 Tbps 25.6 Tbps
Características especiales - SparseCore

Parámetros de configuración admitidos

En la siguiente tabla, se muestran las formas de porción 2D que se admiten para v6e:

Topología Chips TPU Hosts VMs Tipo de máquina (API de GKE) Alcance
1x1 1 1/8 1 ct6e-standard-1t Subhost
2x2 4 1/2 1 ct6e-standard-4t Subhost
2x4 8 1 1 ct6e-standard-8t Único host
2x4 8 1 2 ct6e-standard-4t Único host
4x4 16 2 4 ct6e-standard-4t Varios hosts
4x8 32 4 8 ct6e-standard-4t Varios hosts
8x8 64 8 16 ct6e-standard-4t Varios hosts
8x16 128 16 32 ct6e-standard-4t Varios hosts
16x16 256 32 64 ct6e-standard-4t Varios hosts

Los segmentos con 8 chips (v6e-8) conectados a una sola VM están optimizados para la inferencia, lo que permite que los 8 chips se usen en una sola carga de trabajo de entrega. Puedes realizar inferencias con varios hosts usando rutas de aprendizaje en Cloud. Para obtener más información, consulta Cómo realizar inferencias en varios hosts con rutas de aprendizaje.

Para obtener información sobre la cantidad de VMs para cada topología, consulta Tipos de VMs.

Tipos de VMs

Cada VM de TPU v6e puede contener 1, 4 o incluso 8 chips. Las porciones de 4 chips y más pequeñas tienen el mismo nodo de acceso a la memoria no uniforme (NUMA). Para obtener más información sobre los nodos de NUMA, consulta Acceso no uniforme a la memoria en Wikipedia.

Diagrama de un host de v6e

Las porciones de v6e se crean con VMs de medio host, cada una con 4 chips TPU. Existen dos excepciones a esta regla:

  • v6e-1: Es una VM con un solo chip, diseñada principalmente para pruebas.
  • v6e-8: Es una VM de host completo que se optimizó para un caso de uso de inferencia con los 8 chips conectados a una sola VM.

En la siguiente tabla, se muestra una comparación de los tipos de VM de TPU v6e:

Tipo de VM Cantidad de CPU virtuales por VM RAM (GB) por VM Cantidad de nodos de NUMA por VM
VM con 1 chip 44 176 1
VM con 4 chips 180 720 1
VM con 8 chips 180 1440 2

¿Qué sigue?