Descripción general de Cluster Director de TPU

El Cluster Director de TPU está diseñado para brindarte control directo basado en reservas sobre tus aceleradores de Google Cloud IA. En el caso de Cloud TPU, las capacidades fundamentales de Cluster Director proporcionan un nuevo nivel de servicio que va más allá de una oferta de múltiples inquilinos para brindar capacidad de TPU aislada físicamente:

  • Capacidad dedicada y ubicada físicamente en el mismo lugar: Ahora ofrecemos reservas de TPU densas y ubicadas en el mismo lugar, lo que te brinda control total sobre tu hardware para lograr un rendimiento óptimo de la red y la programación de cargas de trabajo.
  • Mantenimiento y control avanzados: Obtienes un control preciso sobre los eventos de mantenimiento, con la capacidad de segmentar VMs, cubos, Pods o reservas completas específicos, y de administrar la secuencia y el ritmo de estos eventos para minimizar el impacto en la empresa.
  • Programación que tiene en cuenta la topología: Obtienes una vista completa de la topología física, el estado y el uso del hardware, lo que permite una colocación de cargas de trabajo más inteligente y orientada al rendimiento.

Las bases de Cluster Director están completamente integradas en Google Kubernetes Engine. Esta integración ofrece varias funciones para mejorar las cargas de trabajo de IA a gran escala:

  • Eficiencia, tolerancia a errores y resiliencia mejoradas: Proporciona un entorno sólido para tareas de IA exigentes.
  • Grupos de nodos y ubicación de cargas de trabajo que tienen en cuenta la topología. - Las reservas densas ubicadas en el mismo lugar te permiten segmentar anuncios para cubículos o cápsulas específicos. Esto permite una programación de la carga de trabajo más detallada.

Con las bases de Cluster Director en GKE, te beneficias de una mejor utilización, un mayor rendimiento y escalabilidad de tus cargas de trabajo, un buenput y una confiabilidad mejorados, y una observabilidad integral de la capacidad física (desde los hosts hasta los clústeres de GKE).

Las bases de TPU Cluster Director en GKE están disponibles a través de la nueva reserva del modo All Capacity.

Modo All Capacity

Anteriormente, la capacidad de TPU se ofrecía a través de un modo "administrado", en el que Google reemplazaba automáticamente cualquier máquina de TPU defectuosa, pero retenía parte de la capacidad reservada para garantizar que tus segmentos de TPU tuvieran los recursos necesarios para reiniciarse. Ahora Google presenta un nuevo modo de capacidad para la TPU conocido como modo "All Capacity". En este modo de capacidad, tienes visibilidad completa de la topología de hardware, el estado de utilización y el estado de tu capacidad reservada. También tienes acceso a toda tu capacidad reservada, pero eres responsable de administrar las fallas y el mantenimiento planificado.

Estas son algunas de las funciones clave del modo All Capacity:

  • Control y visibilidad totales: Tienes el control total de tu capacidad reservada y visibilidad completa del estado y la topología de tu hardware. Esto significa que puedes ver toda la capacidad disponible, incluidos los bloqueos, y administrar las fallas de las máquinas directamente.
  • Capacidad dedicada: Puedes acceder a capacidad dedicada que siempre está disponible para tus cargas de trabajo de IA. Con la capacidad completa y sin retenciones, obtienes mayor previsibilidad y una asignación más alta, lo que significa que puedes utilizar cada bit de la capacidad de TPU reservada. Ahora, también puedes acceder a tu capacidad de retención para ejecutar tus cargas de trabajo de menor prioridad.
  • Rendimiento optimizado: El modo TPU All Capacity proporciona una colocación densa de grandes recursos de aceleradores con redes de latencia ultrabaja, lo que es fundamental para las cargas de trabajo de AA y HPC a gran escala y estrechamente acopladas. La arquitectura está optimizada para obtener el máximo rendimiento en las cargas de trabajo de entrenamiento y de inferencia.

Generaciones de TPU compatibles

El modo y las funciones de TPU All Capacity están disponibles en Trillium (TPU v6e), TPU Ironwood (TPU v7x) y generaciones futuras de TPU. No se planea admitir generaciones anteriores de TPU.

Terminología de Cluster Director de TPU

Los conceptos de topología de Cluster Director constan de cuatro niveles: Clúster, Bloque, Sub-bloque y Host. Un clúster es una unidad de implementación de Google de capacidad física de TPU en múltiplos de Pods. Toda la capacidad de TPU de un clúster se encuentra en una sola zona. Una reserva de TPU en el modo All Capacity siempre se encuentra dentro de un clúster. En el caso de las TPU, el resto de los conceptos de topología se asignan a componentes físicos, como se muestra en las siguientes tablas.

Trillium

Conceptos de topología Trillium Núcleos Chips Hosts
--- Chip 1 1 N/A
Host Host 8 8 1
En subbloque Trillium Pod 256 256 32
Bloquear Varios Trillium Pods (hasta 16) en una reserva

Hasta 4,096

Hasta 4,096

Hasta 512

--- Secciones permitidas en un subbloque 1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16 y 16x16
--- Una reserva puede tener varios bloques, y cada bloque puede tener de 1 a 16 Trillium Pods.

Para obtener más información sobre los tamaños de segmentación de Trillium, consulta Configuraciones compatibles con Trillium.

Ironwood

Conceptos de topología Ironwood Núcleos Chips Hosts
--- Chip 2 1 ---
Host Host 8 4 1
SubBlock Cubo 128 64 16
Bloquear Varios cubos de Ironwood hasta completar un Pod Hasta 9,216 (144 cubos) Hasta 2304
--- Slice permitida en un bloque: ejemplos 1 x 1 x 1, 2 x 2 x 1, 2 x 2 x 2, 2 x 4 x 4, 4 x 4 x 4, 8 x 8 x 8, 16 x 8 x 8, 16 x 16 x 8 y 12 x 24 x 24 (y muchos más)
--- Una reserva puede tener uno o más cubículos Ironwood, hasta un Ironwood Pod completo.

Para obtener más información sobre los tamaños de segmentación de Ironwood, consulta Configuraciones compatibles con TPUv7x.