TPU v6e

En este documento se describen la arquitectura y las configuraciones admitidas de Cloud TPU v6e (Trillium). En todas las superficies técnicas, como la API y los registros, y a lo largo de este documento, Trillium se denominará v6e.

Con una superficie de 256 chips por Pod, la versión 6e comparte muchas similitudes con la 5e. Este sistema se ha optimizado para ser el producto de mayor valor para el entrenamiento, el ajuste y el servicio de transformadores, de texto a imagen y de redes neuronales convolucionales (CNN).

Arquitectura del sistema

Cada chip v6e contiene un Tensor Core. Cada Tensor Core tiene dos unidades de multiplicación de matrices (MXU), una unidad vectorial y una unidad escalar. En la siguiente tabla se muestran las especificaciones clave y sus valores de la TPU v6e en comparación con la TPU v5e.

Especificaciones	v5e	v6e
Rendimiento/coste total de propiedad (TCO) (previsto)	0,65x	1
Rendimiento máximo de cálculo por chip (bf16)	197 TFLOPS	918 TFLOPS
Pico de computación por chip (Int8)	393 TOPS	1836 TOPs
Capacidad de HBM por chip	16 GB	32 GB
Ancho de banda de HBM por chip	800 GBps	1600 GB/s
Ancho de banda de interconexión entre chips (ICI) bidireccional (por chip)	400 GB/s	800 GBps
Puertos de ICI por chip	4	4
DRAM por host	512 GiB	1536 GiB
Chips por host	8	8
Tamaño del pod de TPUs	256 fichas	256 fichas
Topología de interconexión	Toroide bidimensional	Toroide bidimensional
Cálculo máximo de BF16 por Pod	50,63 PFLOPS	234,9 PFLOPS
Ancho de banda de All-reduce por pod	51,2 TB/s	102,4 TB/s
Ancho de banda de bisección por pod	1,6 TB/s	3,2 TB/s
Configuración de NIC por host	NIC de 2 x 100 Gbps	NIC de 4 x 200 Gbps
Ancho de banda de la red del centro de datos por pod	6,4 Tbps	25,6 Tbps
Funciones especiales	-	SparseCore

Configuraciones admitidas

En la siguiente tabla se muestran las formas de corte 2D admitidas en la versión 6e:

Topología	Chips de TPU	Hosts	VMs	Tipo de máquina (API de GKE)	Ámbito
1x1	1	1/8	1	`ct6e-standard-1t`	Subanfitrión
2x2	4	1/2	1	`ct6e-standard-4t`	Subanfitrión
2x4	8	1	1	`ct6e-standard-8t`	Un solo host
2x4	8	1	2	`ct6e-standard-4t`	Un solo host
4x4	16	2	4	`ct6e-standard-4t`	Varios hosts
4x8	32	4	8	`ct6e-standard-4t`	Varios hosts
8x8	64	8	16	`ct6e-standard-4t`	Varios hosts
8x16	128	16	32	`ct6e-standard-4t`	Varios hosts
16x16	256	32	64	`ct6e-standard-4t`	Varios hosts

Las porciones con 8 chips (v6e-8) conectadas a una sola VM están optimizadas para la inferencia, lo que permite usar los 8 chips en una sola carga de trabajo de servicio. Puedes realizar inferencias multihost con Pathways en Cloud. Para obtener más información, consulta Realizar inferencias multihost con Pathways.

Para obtener información sobre el número de VMs de cada topología, consulta Tipos de VMs.

Tipos de máquinas virtuales

Cada VM de TPU v6e puede contener 1, 4 u 8 chips. Las porciones de 4 chips o menos tienen el mismo nodo de acceso a memoria no uniforme (NUMA). Para obtener más información sobre los nodos NUMA, consulta Acceso a memoria no uniforme en Wikipedia.

Diagrama de un host v6e

Las porciones v6e se crean con VMs de medio host, cada una con 4 chips de TPU. Esta regla tiene dos excepciones:

v6e-1: una VM con un solo chip, pensada principalmente para pruebas
v6e-8: una VM de host completo optimizada para un caso práctico de inferencia con los 8 chips conectados a una sola VM.

En la siguiente tabla se comparan los tipos de máquinas virtuales de TPU v6e:

Tipo de VM	Número de vCPUs por VM	RAM (GB) por VM	Número de nodos NUMA por VM
VM de 1 chip	44	176	1
VM de 4 chips	180	720	1
VM de 8 chips	180	1440	2

Siguientes pasos

Ejecutar entrenamiento e inferencia con la versión 6e de TPU