Acerca de Ironwood (TPU7x) en GKE

Autopilot Standard

En este documento se ofrece una descripción general de Ironwood (TPU7x) en Google Kubernetes Engine (GKE). Ironwood (TPU7x) es la unidad de procesamiento de tensor (TPU) de séptima generación de Google, diseñada a medida para cargas de trabajo de IA a gran escala. Ofrece una mejora significativa del rendimiento con respecto a las generaciones anteriores de TPUs, lo que te permite entrenar y servir modelos más grandes y complejos.

Características de Ironwood (TPU7x)

Ironwood (TPU7x) incluye funciones únicas que lo diferencian de otras versiones de TPU. Estas funciones influyen en la disponibilidad, la configuración del grupo de nodos y el rendimiento de las cargas de trabajo.

Para obtener información sobre el hardware subyacente, consulta la arquitectura de Ironwood (TPU7x).

Disponibilidad

Ironwood (TPU7x) está disponible en clústeres estándar de GKE que ejecutan la versión 1.34.0-gke.2201000 y posteriores, y en clústeres de Autopilot que ejecutan la versión 1.34.1-gke.3084001 y posteriores.

Política de cargas de trabajo para grupos de nodos multihost

Ironwood (TPU7x) usa una política de carga de trabajo para configurar la ubicación física de la infraestructura subyacente cuando creas grupos de nodos de slices de TPU de varios hosts. Crea una política de carga de trabajo y, a continuación, aplícala con la marca --placement-policy. Esta política sustituye a la marca --tpu-topology que usan otras versiones de TPU.

Una política de carga de trabajo es un tipo de política de recursos que te permite configurar la ubicación física de la infraestructura. Ironwood (TPU7x) admite la política de carga de trabajo alto rendimiento. Esta política coloca las VMs de TPU en el mismo lugar para reducir la latencia de red y te permite definir la estrategia de mantenimiento para minimizar las interrupciones de las cargas de trabajo.

Vinculación NUMA

La arquitectura de Ironwood (TPU7x) incluye los siguientes elementos:

Cada máquina virtual (VM) de Ironwood (TPU7x) contiene cuatro chips y dos NICs.
Cada máquina virtual contiene dos nodos Non-Uniform Memory Access (NUMA).
Los recursos de CPU, memoria y NICs se dividen por igual entre los dos nodos NUMA.

Acceder a recursos de diferentes nodos NUMA (acceso entre NUMAs) puede provocar cuellos de botella en el rendimiento de tus cargas de trabajo. Por lo tanto, para optimizar el rendimiento de tus cargas de trabajo, GKE te permite desplegarlas en una configuración de varios contenedores. De esta forma, cada contenedor se vincula a los recursos de CPU, memoria y TPU de un nodo NUMA determinado.

Implementaciones de referencia de LLMs

Para saber cómo desplegar modelos de lenguaje extenso (LLMs) en Ironwood (TPU7x), consulta las siguientes implementaciones de referencia. Puedes usar una de las siguientes opciones para crear un clúster:

GKE XPK: usa el kit de procesamiento acelerado (XPK) para crear clústeres de GKE rápidamente y ejecutar cargas de trabajo para pruebas de concepto y pruebas. Para obtener más información, consulta la documentación de XPK.
CLI de GKE en Google Cloud: usa la CLI de Google Cloud para crear manualmente tu instancia de clúster de GKE y personalizar o ampliar con precisión los entornos de producción de GKE.

LLM	GKE XPK	CLI de GKE en Google Cloud
Llama 70b con BF16 y una topología `4x4x4`	Preentrenar la carga de trabajo llama3.1-70b en clústeres de GKE Ironwood con XPK	Preentrenar la carga de trabajo llama3.1-70b en clústeres de Ironwood GKE con Kubernetes JobSet
DeepSeek con BF16 y una topología `4x4x8`	Preentrenar la carga de trabajo deepseek3-671b en clústeres de Ironwood GKE con XPK	Preentrenar la carga de trabajo deepseek3-671b en clústeres de Ironwood GKE con JobSet de Kubernetes
GPT-oss-120b con BF16 y una topología `4x4x4`	Preentrenar la carga de trabajo gpt-oss-120b en clústeres de Ironwood GKE con XPK	Entrenar previamente la carga de trabajo gpt-oss-120b en clústeres de Ironwood GKE con Kubernetes JobSet
Qwen3-235b-a22b con BF16 y una topología `4x8x8`	Preentrenar la carga de trabajo qwen3-235b-a22b en clústeres de Ironwood GKE con XPK	No disponible

Siguientes pasos

Consulta cómo planificar TPUs en GKE.
Consulta cómo desplegar TPUs en GKE.
Prueba los tutoriales integrales de Ironwood (TPU7x):