Información general sobre TPU Cluster Director

TPU Cluster Director se ha diseñado para ofrecerte un control directo y basado en reservas sobre tus Google Cloud aceleradores de IA. En el caso de las TPU de Cloud, las funciones básicas de Cluster Director proporcionan un nivel de servicio que va más allá de una oferta multiinquilino para ofrecer capacidad de TPU aislada físicamente:

Capacidad dedicada y ubicada físicamente: obtienes reservas de TPUs densas y ubicadas en el mismo lugar, lo que te da un control total sobre tu hardware para optimizar el rendimiento de la red y la programación de las cargas de trabajo.
Mantenimiento y control avanzados: puedes controlar con precisión los eventos de mantenimiento, ya que puedes orientarlos a máquinas virtuales, cubos, pods o reservas completas específicas, así como gestionar la secuencia y el ritmo de estos eventos para minimizar el impacto en la empresa.
Programación basada en la topología: obtienes una vista completa de la topología física, el estado y la utilización del hardware, lo que permite una colocación de cargas de trabajo más inteligente y basada en el rendimiento.

Las funciones básicas de Cluster Director están totalmente integradas con Google Kubernetes Engine. Esta integración ofrece varias funciones para mejorar las cargas de trabajo de IA a gran escala:

Mayor eficiencia, tolerancia a fallos y resiliencia: proporciona un entorno robusto para tareas de IA exigentes.
Grupos de nodos y colocación de cargas de trabajo con reconocimiento de la topología: las reservas densas ubicadas en el mismo sitio te permiten orientar a Pods o cubos específicos. Esto permite una programación más precisa de la carga de trabajo.

Con las bases de Cluster Director en GKE, puedes disfrutar de una mejor utilización, un mayor rendimiento y escalabilidad de tus cargas de trabajo, un buen rendimiento y una fiabilidad mejorados, y una observabilidad completa de la capacidad física (desde los hosts hasta los clústeres de GKE).

Las bases de Cluster Director de las TPUs en GKE están disponibles a través de la nueva reserva en el modo Toda la capacidad.

Modo de capacidad total

De forma predeterminada, la capacidad de TPU se ofrece en el modo "gestionado", en el que Google sustituye automáticamente cualquier máquina de TPU defectuosa, pero retiene parte de la capacidad reservada para asegurarse de que tus slices de TPU tengan los recursos necesarios para reiniciarse. Hay un modo de capacidad alternativo para las TPU conocido como "All Capacity". En este modo de capacidad, tienes visibilidad total de la topología del hardware de TPU, el estado de utilización y el estado de tu capacidad reservada. También tienes acceso a toda tu capacidad reservada, pero eres responsable de gestionar los fallos y el mantenimiento programado.

Estas son algunas de las funciones principales del modo Capacidad total:

Control y visibilidad totales: tienes un control total sobre tu capacidad reservada y una visibilidad completa del estado y la topología de tu hardware. Esto significa que puedes ver toda la capacidad disponible, incluidas las retenciones, y gestionar los fallos de las máquinas directamente.
Capacidad dedicada: puedes acceder a capacidad dedicada que siempre está disponible para tus cargas de trabajo de IA. Con la capacidad total y sin retenciones, obtienes una mayor previsibilidad y una asignación más alta, lo que significa que puedes utilizar cada bit de la capacidad de TPU reservada. Ahora, también puedes acceder a tu capacidad de retención para ejecutar tus cargas de trabajo de menor prioridad.
Rendimiento optimizado: el modo All Capacity de TPU ofrece una colocación densa de grandes recursos de aceleración con una red de latencia ultrabaja, lo que es fundamental para las cargas de trabajo de aprendizaje automático y HPC a gran escala y estrechamente acopladas. La arquitectura se ha optimizado para ofrecer el máximo rendimiento en las cargas de trabajo de entrenamiento e inferencia.

Generaciones de TPU admitidas

El modo y las funciones de TPU All Capacity están disponibles en Trillium (TPU v6e), TPU Ironwood (TPU7x) y futuras generaciones de TPU. El modo de capacidad total de TPU no es compatible con las generaciones anteriores de TPU.

Terminología de Cluster Director de TPU

La topología de Cluster Director consta de cuatro niveles: clúster, bloque, subbloque y host. Un clúster es una unidad de implementación de Google de capacidad física de TPU en múltiplos de pods. Toda la capacidad de TPU de un clúster se encuentra en una zona. Una reserva de TPU en el modo Toda la capacidad siempre está dentro de un clúster. En el caso de las TPUs, el resto de los conceptos de topología se corresponden con componentes físicos, tal como se muestra en las siguientes tablas.

Trillium

Conceptos de topología	Trillium	Núcleos	Chips	Hosts
---	Chip	1	1	N/A
Host	Host	8	8	1
Subbloque	Trillium Pod	256	256	32
Bloquear	Varios Trillium Pods (hasta 16) en una reserva	Hasta 4096	Hasta 4096	Hasta 512
---	Rebanadas permitidas en un subbloque	1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16 y 16x16
---	Una reserva puede tener varios bloques y cada bloque puede tener de 1 a 16 Trillium Pods.

Para obtener más información sobre los tamaños de las porciones de Trillium, consulta Configuraciones compatibles con Trillium.

Ironwood

Conceptos de topología	Ironwood	Núcleos	Chips	Hosts
---	Chip	2	1	---
Host	Host	8	4	1
Subbloque	Cubo	128	64	16
Bloquear	Varios cubos de Ironwood hasta un pod completo		Hasta 9216 (144 cubos)	Hasta 2304
---	Ejemplos de tamaños de porción permitidos en un bloque	1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8 y 12x24x24 (y muchas más)
---	Una reserva puede incluir uno o varios cubos de Ironwood, hasta una cápsula de Ironwood completa.

Para obtener más información sobre los tamaños de las porciones de Ironwood, consulta las configuraciones admitidas de TPU7x.