Información general sobre TPU Cluster Director

TPU Cluster Director se ha diseñado para ofrecerte un control directo y basado en reservas sobre tus Google Cloud aceleradores de IA. En el caso de las TPU de Cloud, las funciones básicas de Cluster Director proporcionan un nuevo nivel de servicio que va más allá de una oferta multiinquilino para ofrecer capacidad de TPU aislada físicamente:

  • Capacidad dedicada y ubicada físicamente: ahora ofrecemos reservas de TPUs densas y ubicadas en el mismo lugar, lo que te da un control total sobre tu hardware para optimizar el rendimiento de la red y la programación de las cargas de trabajo.
  • Mantenimiento y control avanzados: puedes controlar con precisión los eventos de mantenimiento, ya que puedes orientarlos a máquinas virtuales, cubos, pods o reservas completas específicas, así como gestionar la secuencia y el ritmo de estos eventos para minimizar el impacto en la empresa.
  • Programación basada en la topología: obtienes una vista completa de la topología física, el estado y la utilización del hardware, lo que permite colocar las cargas de trabajo de forma más inteligente y orientada al rendimiento.

Las bases de Cluster Director están totalmente integradas con Google Kubernetes Engine. Esta integración ofrece varias funciones para mejorar las cargas de trabajo de IA a gran escala:

  • Mayor eficiencia, tolerancia a fallos y resiliencia: proporciona un entorno robusto para tareas de IA exigentes.
  • Grupos de nodos y colocación de cargas de trabajo con reconocimiento de la topología. - Las reservas densas de colocación te permiten orientar tus anuncios a pods o cubos específicos. Esto permite una programación más precisa de la carga de trabajo.

Con las bases de Cluster Director en GKE, puedes disfrutar de una mejor utilización, un mayor rendimiento y escalabilidad de tus cargas de trabajo, un buen rendimiento y una fiabilidad mejorados, y una observabilidad completa de la capacidad física (desde los hosts hasta los clústeres de GKE).

Las bases de Cluster Director de las TPUs en GKE están disponibles a través de la nueva reserva del modo Toda la capacidad.

Modo de capacidad total

Antes, la capacidad de TPU se ofrecía en un modo "gestionado", en el que Google sustituía automáticamente cualquier máquina de TPU defectuosa, pero retenía parte de la capacidad reservada para asegurarse de que las porciones de TPU tuvieran los recursos necesarios para reiniciarse. Google presenta un nuevo modo de capacidad para las TPU, denominado "All Capacity". En este modo de capacidad, tienes visibilidad total de la topología de hardware de la TPU, el estado de utilización y el estado de tu capacidad reservada. También tienes acceso a toda tu capacidad reservada, pero eres responsable de gestionar los fallos y el mantenimiento programado.

Estas son algunas de las funciones principales del modo de capacidad total:

  • Control y visibilidad totales: tienes un control total sobre tu capacidad reservada y una visibilidad completa del estado y la topología de tu hardware. Esto significa que puedes ver toda la capacidad disponible, incluidas las retenciones, y gestionar los fallos de las máquinas directamente.
  • Capacidad dedicada: puedes acceder a capacidad dedicada que siempre está disponible para tus cargas de trabajo de IA. Con la capacidad total y sin retenciones, obtienes una mayor previsibilidad y una asignación más alta, lo que significa que puedes utilizar cada bit de la capacidad de TPU reservada. Ahora, también puedes acceder a tu capacidad de retención para ejecutar tus cargas de trabajo de menor prioridad.
  • Rendimiento optimizado: el modo All Capacity de TPU ofrece una colocación densa de grandes recursos de aceleración con una red de latencia ultrabaja, lo que es fundamental para las cargas de trabajo de aprendizaje automático y HPC a gran escala y estrechamente acopladas. La arquitectura se ha optimizado para ofrecer el máximo rendimiento en las cargas de trabajo de entrenamiento e inferencia.

Generaciones de TPU compatibles

El modo y las funciones de TPU All Capacity están disponibles en Trillium (TPU v6e), TPU Ironwood (TPU v7x) y futuras generaciones de TPU. No tenemos previsto ofrecer asistencia para generaciones anteriores de TPU.

Terminología de Cluster Director de TPU

Los conceptos de topología de Cluster Director constan de cuatro niveles: clúster, bloque, subbloque y host. Un clúster es una unidad de implementación de Google de capacidad física de TPU en múltiplos de pods. Toda la capacidad de TPU de un clúster se encuentra en una zona. Una reserva de TPU en el modo Toda la capacidad siempre está dentro de un clúster. En el caso de las TPUs, el resto de los conceptos de topología se asignan a componentes físicos, tal como se muestra en las siguientes tablas.

Trillium

Conceptos de topología Trillium Núcleos Chips Hosts
--- Chip 1 1 N/A
Host Host 8 8 1
Subbloque Trillium Pod 256 256 32
Bloquear Varios Trillium Pods (hasta 16) en una reserva

Hasta 4096

Hasta 4096

Hasta 512

--- Rebanadas permitidas en un subbloque 1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16 y 16x16
--- Una reserva puede tener varios bloques y cada bloque puede tener de 1 a 16 Trillium Pods.

Para obtener más información sobre los tamaños de las porciones de Trillium, consulta Configuraciones compatibles con Trillium.

Ironwood

Conceptos de topología Ironwood Núcleos Chips Hosts
--- Chip 2 1 ---
Host Host 8 4 1
SubBlock Cubo 128 64 16
Bloquear Varios cubos de Ironwood hasta un pod completo Hasta 9216 (144 cubos) Hasta 2304
--- Slice permitido en un bloque: ejemplos 1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8 y 12x24x24 (y muchas más)
--- Una reserva puede incluir uno o varios cubos de Ironwood, hasta una cápsula de Ironwood completa.

Para obtener más información sobre los tamaños de las porciones de Ironwood, consulta las configuraciones admitidas de TPU v7x.