Descripción general de Cluster Director de la TPU

El Cluster Director de la TPU está diseñado para brindarte control directo basado en reservas sobre tus aceleradores de IA de Google Cloud . En el caso de la Cloud TPU, las capacidades fundamentales de Cluster Director proporcionan un nuevo nivel de servicio que va más allá de una oferta de multiusuario para brindar capacidad de la TPU aislada físicamente:

Capacidad dedicada y ubicada físicamente en el mismo lugar: Ahora ofrecemos reservas de TPU densas y ubicadas en el mismo lugar, lo que te proporciona control total sobre el hardware para lograr un rendimiento óptimo de la red y la programación de cargas de trabajo.
Mantenimiento y control avanzados: Obtienes un control preciso sobre los eventos de mantenimiento, con la capacidad de segmentar VMs, cubos, Pods o reservas completas específicos y de administrar la secuencia y el ritmo de estos eventos para minimizar el impacto en la empresa.
Programación consciente de la topología: Obtienes una vista completa de la topología física, el estado y el uso del hardware, lo que permite una colocación de cargas de trabajo más inteligente y orientada al rendimiento.

Las bases de Cluster Director están completamente integradas en Google Kubernetes Engine. Esta integración ofrece varias funciones para mejorar las cargas de trabajo de IA a gran escala:

Eficiencia, tolerancia a errores y resiliencia mejoradas: Proporciona un entorno sólido para tareas de IA exigentes.
Grupos de nodos y ubicación de cargas de trabajo conscientes de la topología: Las reservas densas ubicadas en el mismo lugar te permiten segmentar anuncios para cubos o Pods específicos. Esto permite una programación de la carga de trabajo más detallada.

Con las bases de Cluster Director en GKE, te beneficias de un mejor uso, un mayor rendimiento y escalabilidad de tus cargas de trabajo, un goodput y una confiabilidad mejorados y una observabilidad integral de la capacidad física (desde los hosts hasta los clústeres de GKE).

Las bases Cluster Director de TPU en GKE están disponibles con la nueva reserva del modo All Capacity.

Modo All Capacity

Antes, la capacidad de TPU se ofrecía con un modo “administrado”, en el que Google reemplazaba automáticamente cualquier máquina de TPU defectuosa, pero retenía parte de la capacidad reservada con el objetivo de garantizar que tus porciones de TPU tuvieran los recursos necesarios para reiniciarse. Ahora Google presenta un nuevo modo de capacidad para la TPU conocido como modo “All Capacity”. En este modo de capacidad, tienes visibilidad completa de la topología de hardware de TPU, el estado de uso y el estado de tu capacidad reservada. También tienes acceso a toda tu capacidad reservada, pero eres responsable de administrar las fallas y el mantenimiento planificado.

Estas son algunas de las funciones clave del modo All Capacity:

Control y visibilidad totales: Tienes el control total de tu capacidad reservada y visibilidad completa del estado y la topología del hardware. Esto significa que puedes ver toda la capacidad disponible, incluidos los bloqueos y administrar las fallas de las máquinas directamente.
Capacidad dedicada: Puedes acceder a capacidad dedicada que siempre está disponible para tus cargas de trabajo de IA. Con la capacidad máxima y sin aislamientos, obtienes mayor previsibilidad y una asignación más alta, lo que significa que puedes usar cada bit de la capacidad de TPU reservada. Ahora, también puedes acceder a tu capacidad de aislamiento para ejecutar tus cargas de trabajo de menor prioridad.
Rendimiento optimizado: El modo All Capacity de TPU proporciona una colocación densa de grandes recursos de aceleradores con redes de latencia ultrabaja, lo que es fundamental para las cargas de trabajo del AA y HPC a gran escala y con acoplamiento alto. La arquitectura está optimizada para obtener el máximo rendimiento en las cargas de trabajo de entrenamiento y de inferencia.

Generaciones de las TPU compatibles

El modo All Capacity y sus funciones de TPU están disponibles en Trillium (TPU v6e), TPU Ironwood (TPU v7x) y generaciones futuras de TPU. No está previsto ofrecer asistencia para generaciones anteriores de la TPU.

Terminología de Cluster Director de la TPU

Los conceptos de topología de Cluster Director constan de cuatro niveles: Clúster, Bloque, Subbloque y Host. Un clúster es una unidad de implementación de Google de capacidad física de la TPU en varios Pods. Toda la capacidad de la TPU de un clúster está en una sola zona. Una reserva de la TPU en el modo All Capacity siempre está en un solo clúster. En el caso de las TPU, el resto de los conceptos de topología se asignan a componentes físicos, como se muestra en las siguientes tablas.

Trillium

Conceptos de topología	Trillium	Núcleos	Chips	Hosts
---	Chip	1	1	N/A
Host	Host	8	8	1
Subbloque	Pod de Trillium	256	256	32
Bloquear	Varios Pods de Trillium (hasta 16) en una reserva	Hasta 4,096	Hasta 4,096	Hasta 512
---	Porciones permitidas en un subbloque	1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16 y 16x16
---	Una reserva puede tener varios bloques y cada bloque puede tener entre 1 y 16 Pods de Trillium

Para obtener más información sobre los tamaños de las porciones de Trillium, consulta los parámetros de configuración compatibles con Trillium.

Ironwood

Conceptos de topología	Ironwood	Núcleos	Chips	Hosts
---	Chip	2	1	---
Host	Host	8	4	1
Subbloque	Cubo	128	64	16
Bloquear	Varios cubos de Ironwood hasta completar un Pod		Hasta 9,216 (144 cubos)	Hasta 2,304
---	Porción permitida en un bloque: ejemplos	1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8 y 12x24x24 (y muchos más)
---	Una reserva puede tener uno o más cubos de Ironwood, hasta un Pod de Ironwood completo.

Para obtener más información sobre los tamaños de las porciones de Ironwood, consulta los parámetros de configuración compatibles con TPUv7x.