En este documento, se proporciona una descripción general de Ironwood (TPU7x) en Google Kubernetes Engine (GKE). Ironwood (TPU7x) es la séptima generación de la unidad de procesamiento tensorial (TPU) de Google, diseñada de forma personalizada para cargas de trabajo de IA a gran escala. Ofrece una mejora significativa en el rendimiento en comparación con las generaciones anteriores de TPU, lo que te permite entrenar y entregar modelos más grandes y complejos.
Características de Ironwood (TPU7x)
Ironwood (TPU7x) introduce funciones únicas que lo diferencian de otras versiones de TPU. Estas funciones afectan la disponibilidad, la configuración del grupo de nodos y el rendimiento de la carga de trabajo.
Para obtener información sobre el hardware subyacente, consulta la arquitectura de Ironwood (TPU7x).
Disponibilidad
Ironwood (TPU7x) está disponible en los clústeres de GKE Standard que ejecutan la versión 1.34.0-gke.2201000 y versiones posteriores, y en los clústeres de Autopilot que ejecutan la versión 1.34.1-gke.3084001 y versiones posteriores.
Política de carga de trabajo para grupos de nodos de varios hosts
Ironwood (TPU7x) usa una política de carga de trabajo para configurar la ubicación física de la infraestructura subyacente cuando creas grupos de nodos de porción de TPU de varios hosts. Creas una política de cargas de trabajo y, luego, la aplicas con la marca --placement-policy. Esta política reemplaza la marca --tpu-topology que usan otras versiones de TPU.
Una política de carga de trabajo es un tipo de política de recursos que te permite configurar la ubicación física de la infraestructura. Ironwood (TPU7x) admite la política de carga de trabajo de alto rendimiento. Esta política coloca las VMs de TPU en la misma ubicación para reducir la latencia de red y te permite definir la estrategia de mantenimiento para minimizar las interrupciones de la carga de trabajo.
Vinculación de NUMA
La arquitectura de Ironwood (TPU7x) incluye los siguientes elementos:
- Cada máquina virtual (VM) de Ironwood (TPU7x) contiene cuatro chips y dos NIC.
- Cada VM contiene dos nodos de acceso a la memoria no uniforme (NUMA).
- Los recursos de CPU, memoria y NIC se dividen por igual entre los dos nodos de NUMA.
El acceso a recursos en diferentes nodos de NUMA (acceso entre NUMA) puede generar cuellos de botella en el rendimiento de tus cargas de trabajo. Por lo tanto, para optimizar el rendimiento de tus cargas de trabajo, GKE te permite implementarlas en una configuración de varios contenedores. Esto vincula cada contenedor a los recursos de CPU, memoria y TPU dentro de un nodo NUMA determinado.
Implementaciones de referencia de LLM
Para obtener información sobre cómo implementar modelos de lenguaje grandes (LLM) en Ironwood (TPU7x), consulta las siguientes implementaciones de referencia. Puedes usar una de las siguientes opciones para crear el clúster:
- GKE XPK: Usa el kit de procesamiento acelerado (XPK) para crear clústeres de GKE rápidamente y ejecutar cargas de trabajo para pruebas de concepto y pruebas. Para obtener más información, consulta la documentación de XPK.
- GKE en Google Cloud CLI: Usa Google Cloud CLI para crear manualmente la instancia de tu clúster de GKE y personalizar o expandir con precisión los entornos de producción de GKE existentes.
| LLM | GKE XPK | GKE en Google Cloud CLI |
|---|---|---|
Llama 70b con BF16 y una topología 4x4x4 |
Preentrena la carga de trabajo de llama3.1-70b en clústeres de GKE de Ironwood con XPK | Pretrain llama3.1-70b workload on Ironwood GKE clusters with Kubernetes JobSet |
DeepSeek con BF16 y una topología 4x4x8 |
Entrenamiento previo de la carga de trabajo deepseek3-671b en clústeres de GKE de Ironwood con XPK | Entrenamiento previo de la carga de trabajo deepseek3-671b en clústeres de GKE de Ironwood con Kubernetes JobSet |
GPT-oss-120b con BF16 y una topología 4x4x4 |
Entrenamiento previo de la carga de trabajo gpt-oss-120b en clústeres de GKE de Ironwood con XPK | Entrenamiento previo de la carga de trabajo gpt-oss-120b en clústeres de GKE de Ironwood con Kubernetes JobSet |
Qwen3-235b-a22b con BF16 y una topología 4x8x8 |
Entrenamiento previo de la carga de trabajo qwen3-235b-a22b en clústeres de GKE de Ironwood con XPK | No disponible |
¿Qué sigue?
- Obtén información para planificar el uso de TPU en GKE.
- Obtén más información para implementar TPUs en GKE.
- Prueba los instructivos de extremo a extremo para Ironwood (TPU7x):
- Ejecuta una carga de trabajo de entrenamiento con Ironwood (TPU7x) y reservas con Cloud Storage
- Ejecuta una carga de trabajo de entrenamiento con Ironwood (TPU7x) con inicio flexible usando almacenamiento de Filestore
- Ejecuta una carga de trabajo de entrenamiento con Ironwood (TPU7x) y flex-start con almacenamiento Lustre