Acerca do Ironwood (TPU7x) no GKE

Este documento oferece uma vista geral do Ironwood (TPU7x) no Google Kubernetes Engine (GKE). O Ironwood (TPU7x) é a sétima geração da Tensor Processing Unit (TPU) da Google, concebida à medida para cargas de trabalho de IA em grande escala. Oferece uma melhoria significativa no desempenho em relação às gerações anteriores de TPUs, o que lhe permite preparar e publicar modelos maiores e mais complexos.

Caraterísticas do Ironwood (TPU7x)

O Ironwood (TPU7x) introduz funcionalidades únicas que o diferenciam de outras versões da TPU. Estas funcionalidades afetam a disponibilidade, a configuração do conjunto de nós e o desempenho da carga de trabalho.

Para ver informações sobre o hardware subjacente, consulte a arquitetura Ironwood (TPU7x).

Disponibilidade

O Ironwood (TPU7x) está disponível em clusters padrão do GKE que executam a versão 1.34.0-gke.2201000 e posteriores, e em clusters do Autopilot que executam a versão 1.34.1-gke.3084001 e posteriores.

Política de carga de trabalho para node pools com vários anfitriões

O Ironwood (TPU7x) usa uma política de carga de trabalho para configurar o posicionamento físico da infraestrutura subjacente quando cria pools de nós de fatia de TPU com vários anfitriões. Cria uma política de carga de trabalho e, em seguida, aplica-a através da flag --placement-policy. Esta política substitui a flag --tpu-topology usada por outras versões da TPU.

Uma política de carga de trabalho é um tipo de política de recursos que lhe permite configurar o posicionamento físico da infraestrutura. O Ironwood (TPU7x) suporta a política de carga de trabalho de alto débito. Esta política coloca as VMs de TPU no mesmo local para reduzir a latência da rede e permite-lhe definir a estratégia de manutenção para minimizar as interrupções da carga de trabalho.

Vinculação NUMA

A arquitetura Ironwood (TPU7x) inclui os seguintes elementos:

  • Cada máquina virtual (VM) Ironwood (TPU7x) contém quatro chips e duas NICs.
  • Cada VM contém dois nós de acesso à memória não uniforme (NUMA).
  • Os recursos de CPU, memória e NICs são divididos igualmente entre os dois nós NUMA.

O acesso a recursos em diferentes nós NUMA (acesso entre NUMAs) pode introduzir gargalos de desempenho nas suas cargas de trabalho. Por conseguinte, para otimizar o desempenho da carga de trabalho, o GKE permite-lhe implementar as cargas de trabalho numa configuração de vários contentores. Isto associa cada contentor aos recursos de CPU, memória e TPU num determinado nó NUMA.

Implementações de referência de MDIs/CEs

Para saber como implementar grandes modelos de linguagem (GMLs) no Ironwood (TPU7x), consulte as seguintes implementações de referência. Pode usar uma das seguintes opções para a criação de clusters:

  • GKE XPK: use o Accelerated Processing Kit (XPK) para criar rapidamente clusters do GKE e executar cargas de trabalho para provas de conceito e testes. Para mais informações, consulte a documentação XPK.
  • GKE na Google Cloud CLI: use a Google Cloud CLI para criar manualmente a instância do cluster do GKE para uma personalização precisa ou uma expansão dos ambientes de produção do GKE existentes.
LLM GKE XPK GKE na CLI do Google Cloud
Llama 70b com BF16 e uma topologia 4x4x4 Pré-treine a carga de trabalho llama3.1-70b em clusters do GKE Ironwood com XPK Pré-treine a carga de trabalho llama3.1-70b em clusters do GKE Ironwood com o Kubernetes JobSet
DeepSeek com BF16 e uma topologia 4x4x8 Pré-treine a carga de trabalho deepseek3-671b em clusters do GKE Ironwood com XPK Pré-treine a carga de trabalho deepseek3-671b em clusters do GKE Ironwood com o Kubernetes JobSet
GPT-oss-120b com BF16 e uma topologia 4x4x4 Pré-treine a carga de trabalho gpt-oss-120b em clusters do GKE Ironwood com XPK Pré-treine a carga de trabalho gpt-oss-120b em clusters do GKE Ironwood com o Kubernetes JobSet
Qwen3-235b-a22b com BF16 e uma topologia 4x8x8 Pré-treine a carga de trabalho qwen3-235b-a22b em clusters do GKE Ironwood com XPK Não disponível

O que se segue?