Este documento oferece uma visão geral do Ironwood (TPU7x) no Google Kubernetes Engine (GKE). O Ironwood (TPU7x) é a Unidade de Processamento de Tensor (TPU) de sétima geração do Google, projetada sob medida para cargas de trabalho de IA em grande escala. Ela oferece uma melhoria significativa de performance em relação às gerações anteriores de TPU, permitindo treinar e disponibilizar modelos maiores e mais complexos.
Características do Ironwood (TPU7x)
A Ironwood (TPU7x) apresenta recursos exclusivos que a diferenciam de outras versões de TPU. Esses recursos afetam a disponibilidade, a configuração do pool de nós e o desempenho da carga de trabalho.
Para informações sobre o hardware subjacente, consulte a arquitetura do Ironwood (TPU7x).
Disponibilidade
O Ironwood (TPU7x) está disponível em clusters do GKE Standard que executam a versão 1.34.0-gke.2201000 e mais recentes, e em clusters do Autopilot que executam a versão 1.34.1-gke.3084001 e mais recentes.
Política de carga de trabalho para pools de nós de vários hosts
O Ironwood (TPU7x) usa uma política de
carga de trabalho para
configurar o posicionamento físico da infraestrutura subjacente ao
criar pools de nós de fração de TPU de vários hosts. Crie uma política de carga de trabalho e aplique-a usando a flag --placement-policy. Essa política substitui a flag --tpu-topology usada por outras versões de TPU.
Uma política de carga de trabalho é um tipo de política de recursos que permite configurar o posicionamento físico da infraestrutura. O Ironwood (TPU7x) é compatível com a política de carga de trabalho de alta capacidade de processamento. Essa política coloca as VMs da TPU juntas para reduzir a latência da rede e permite definir a estratégia de manutenção para minimizar as interrupções da carga de trabalho.
Vinculação NUMA
A arquitetura Ironwood (TPU7x) inclui os seguintes elementos:
- Cada máquina virtual (VM) Ironwood (TPU7x) contém quatro chips e duas NICs.
- Cada VM contém dois nós de acesso à memória não uniforme (NUMA).
- Os recursos de CPU, memória e NICs são divididos igualmente entre os dois nós NUMA.
Acessar recursos em diferentes nós NUMA (acesso entre nós NUMA) pode introduzir gargalos de desempenho nas suas cargas de trabalho. Portanto, para otimizar o desempenho da carga de trabalho, o GKE permite implantar as cargas de trabalho em uma configuração de vários contêineres. Isso vincula cada contêiner aos recursos de CPU, memória e TPU em um determinado nó NUMA.
Implementações de referência de LLMs
Para saber como implantar modelos de linguagem grandes (LLMs) no Ironwood (TPU7x), consulte as seguintes implementações de referência. Você pode usar uma das seguintes opções para criar um cluster:
- GKE XPK: use o Accelerated Processing Kit (XPK) para criar rapidamente clusters do GKE e executar cargas de trabalho para provas de conceito e testes. Para mais informações, consulte a documentação do XPK.
- GKE na Google Cloud CLI:use a Google Cloud CLI para criar manualmente a instância do cluster do GKE e personalizar ou expandir os ambientes de produção do GKE.
| LLM | GKE XPK | GKE na Google Cloud CLI |
|---|---|---|
Llama 70b com BF16 e uma topologia 4x4x4 |
Pré-treinar a carga de trabalho llama3.1-70b em clusters do GKE Ironwood com XPK | Pré-treinar a carga de trabalho llama3.1-70b em clusters do GKE Ironwood com o JobSet do Kubernetes |
DeepSeek com BF16 e uma topologia 4x4x8 |
Pré-treinar a carga de trabalho deepseek3-671b em clusters do GKE Ironwood com XPK | Pré-treinar a carga de trabalho deepseek3-671b em clusters do GKE Ironwood com o JobSet do Kubernetes |
GPT-oss-120b com BF16 e uma topologia 4x4x4 |
Pré-treinar a carga de trabalho gpt-oss-120b em clusters do GKE Ironwood com XPK | Pré-treinar a carga de trabalho gpt-oss-120b em clusters do GKE Ironwood com o Kubernetes JobSet |
Qwen3-235b-a22b com BF16 e uma topologia 4x8x8 |
Pré-treinar a carga de trabalho qwen3-235b-a22b em clusters do GKE Ironwood com XPK | Indisponível |
A seguir
- Saiba como planejar TPUs no GKE.
- Saiba como implantar TPUs no GKE.
- Confira os tutoriais de ponta a ponta para Ironwood (TPU7x):
- Executar uma carga de trabalho de treinamento com Ironwood (TPU7x) e reservas usando o Cloud Storage
- Executar uma carga de trabalho de treinamento com Ironwood (TPU7x) com início flexível usando o armazenamento do Filestore
- Executar carga de trabalho de treinamento com Ironwood (TPU7x) e flex-start usando o armazenamento Lustre