Sobre o Ironwood (TPU7x) no GKE

Este documento oferece uma visão geral do Ironwood (TPU7x) no Google Kubernetes Engine (GKE). O Ironwood (TPU7x) é a Unidade de Processamento de Tensor (TPU) de sétima geração do Google, projetada sob medida para cargas de trabalho de IA em grande escala. Ela oferece uma melhoria significativa de performance em relação às gerações anteriores de TPU, permitindo treinar e disponibilizar modelos maiores e mais complexos.

Características do Ironwood (TPU7x)

A Ironwood (TPU7x) apresenta recursos exclusivos que a diferenciam de outras versões de TPU. Esses recursos afetam a disponibilidade, a configuração do pool de nós e o desempenho da carga de trabalho.

Para informações sobre o hardware subjacente, consulte a arquitetura do Ironwood (TPU7x).

Disponibilidade

O Ironwood (TPU7x) está disponível em clusters do GKE Standard que executam a versão 1.34.0-gke.2201000 e mais recentes, e em clusters do Autopilot que executam a versão 1.34.1-gke.3084001 e mais recentes.

Política de carga de trabalho para pools de nós de vários hosts

O Ironwood (TPU7x) usa uma política de carga de trabalho para configurar o posicionamento físico da infraestrutura subjacente ao criar pools de nós de fração de TPU de vários hosts. Crie uma política de carga de trabalho e aplique-a usando a flag --placement-policy. Essa política substitui a flag --tpu-topology usada por outras versões de TPU.

Uma política de carga de trabalho é um tipo de política de recursos que permite configurar o posicionamento físico da infraestrutura. O Ironwood (TPU7x) é compatível com a política de carga de trabalho de alta capacidade de processamento. Essa política coloca as VMs da TPU juntas para reduzir a latência da rede e permite definir a estratégia de manutenção para minimizar as interrupções da carga de trabalho.

Vinculação NUMA

A arquitetura Ironwood (TPU7x) inclui os seguintes elementos:

  • Cada máquina virtual (VM) Ironwood (TPU7x) contém quatro chips e duas NICs.
  • Cada VM contém dois nós de acesso à memória não uniforme (NUMA).
  • Os recursos de CPU, memória e NICs são divididos igualmente entre os dois nós NUMA.

Acessar recursos em diferentes nós NUMA (acesso entre nós NUMA) pode introduzir gargalos de desempenho nas suas cargas de trabalho. Portanto, para otimizar o desempenho da carga de trabalho, o GKE permite implantar as cargas de trabalho em uma configuração de vários contêineres. Isso vincula cada contêiner aos recursos de CPU, memória e TPU em um determinado nó NUMA.

Implementações de referência de LLMs

Para saber como implantar modelos de linguagem grandes (LLMs) no Ironwood (TPU7x), consulte as seguintes implementações de referência. Você pode usar uma das seguintes opções para criar um cluster:

  • GKE XPK: use o Accelerated Processing Kit (XPK) para criar rapidamente clusters do GKE e executar cargas de trabalho para provas de conceito e testes. Para mais informações, consulte a documentação do XPK.
  • GKE na Google Cloud CLI:use a Google Cloud CLI para criar manualmente a instância do cluster do GKE e personalizar ou expandir os ambientes de produção do GKE.
LLM GKE XPK GKE na Google Cloud CLI
Llama 70b com BF16 e uma topologia 4x4x4 Pré-treinar a carga de trabalho llama3.1-70b em clusters do GKE Ironwood com XPK Pré-treinar a carga de trabalho llama3.1-70b em clusters do GKE Ironwood com o JobSet do Kubernetes
DeepSeek com BF16 e uma topologia 4x4x8 Pré-treinar a carga de trabalho deepseek3-671b em clusters do GKE Ironwood com XPK Pré-treinar a carga de trabalho deepseek3-671b em clusters do GKE Ironwood com o JobSet do Kubernetes
GPT-oss-120b com BF16 e uma topologia 4x4x4 Pré-treinar a carga de trabalho gpt-oss-120b em clusters do GKE Ironwood com XPK Pré-treinar a carga de trabalho gpt-oss-120b em clusters do GKE Ironwood com o Kubernetes JobSet
Qwen3-235b-a22b com BF16 e uma topologia 4x8x8 Pré-treinar a carga de trabalho qwen3-235b-a22b em clusters do GKE Ironwood com XPK Indisponível

A seguir