Este documento oferece uma vista geral do Ironwood (TPU7x) no Google Kubernetes Engine (GKE). O Ironwood (TPU7x) é a sétima geração da Tensor Processing Unit (TPU) da Google, concebida à medida para cargas de trabalho de IA em grande escala. Oferece uma melhoria significativa no desempenho em relação às gerações anteriores de TPUs, o que lhe permite preparar e publicar modelos maiores e mais complexos.
Caraterísticas do Ironwood (TPU7x)
O Ironwood (TPU7x) introduz funcionalidades únicas que o diferenciam de outras versões da TPU. Estas funcionalidades afetam a disponibilidade, a configuração do conjunto de nós e o desempenho da carga de trabalho.
Para ver informações sobre o hardware subjacente, consulte a arquitetura Ironwood (TPU7x).
Disponibilidade
O Ironwood (TPU7x) está disponível em clusters padrão do GKE que executam a versão 1.34.0-gke.2201000 e posteriores, e em clusters do Autopilot que executam a versão 1.34.1-gke.3084001 e posteriores.
Política de carga de trabalho para node pools com vários anfitriões
O Ironwood (TPU7x) usa uma política de carga de trabalho para configurar o posicionamento físico da infraestrutura subjacente quando cria pools de nós de fatia de TPU com vários anfitriões. Cria uma política de carga de trabalho e, em seguida, aplica-a através da flag --placement-policy. Esta política substitui a flag --tpu-topology usada por outras versões da TPU.
Uma política de carga de trabalho é um tipo de política de recursos que lhe permite configurar o posicionamento físico da infraestrutura. O Ironwood (TPU7x) suporta a política de carga de trabalho de alto débito. Esta política coloca as VMs de TPU no mesmo local para reduzir a latência da rede e permite-lhe definir a estratégia de manutenção para minimizar as interrupções da carga de trabalho.
Vinculação NUMA
A arquitetura Ironwood (TPU7x) inclui os seguintes elementos:
- Cada máquina virtual (VM) Ironwood (TPU7x) contém quatro chips e duas NICs.
- Cada VM contém dois nós de acesso à memória não uniforme (NUMA).
- Os recursos de CPU, memória e NICs são divididos igualmente entre os dois nós NUMA.
O acesso a recursos em diferentes nós NUMA (acesso entre NUMAs) pode introduzir gargalos de desempenho nas suas cargas de trabalho. Por conseguinte, para otimizar o desempenho da carga de trabalho, o GKE permite-lhe implementar as cargas de trabalho numa configuração de vários contentores. Isto associa cada contentor aos recursos de CPU, memória e TPU num determinado nó NUMA.
Implementações de referência de MDIs/CEs
Para saber como implementar grandes modelos de linguagem (GMLs) no Ironwood (TPU7x), consulte as seguintes implementações de referência. Pode usar uma das seguintes opções para a criação de clusters:
- GKE XPK: use o Accelerated Processing Kit (XPK) para criar rapidamente clusters do GKE e executar cargas de trabalho para provas de conceito e testes. Para mais informações, consulte a documentação XPK.
- GKE na Google Cloud CLI: use a Google Cloud CLI para criar manualmente a instância do cluster do GKE para uma personalização precisa ou uma expansão dos ambientes de produção do GKE existentes.
| LLM | GKE XPK | GKE na CLI do Google Cloud |
|---|---|---|
Llama 70b com BF16 e uma topologia 4x4x4 |
Pré-treine a carga de trabalho llama3.1-70b em clusters do GKE Ironwood com XPK | Pré-treine a carga de trabalho llama3.1-70b em clusters do GKE Ironwood com o Kubernetes JobSet |
DeepSeek com BF16 e uma topologia 4x4x8 |
Pré-treine a carga de trabalho deepseek3-671b em clusters do GKE Ironwood com XPK | Pré-treine a carga de trabalho deepseek3-671b em clusters do GKE Ironwood com o Kubernetes JobSet |
GPT-oss-120b com BF16 e uma topologia 4x4x4 |
Pré-treine a carga de trabalho gpt-oss-120b em clusters do GKE Ironwood com XPK | Pré-treine a carga de trabalho gpt-oss-120b em clusters do GKE Ironwood com o Kubernetes JobSet |
Qwen3-235b-a22b com BF16 e uma topologia 4x8x8 |
Pré-treine a carga de trabalho qwen3-235b-a22b em clusters do GKE Ironwood com XPK | Não disponível |
O que se segue?
- Saiba como planear TPUs no GKE.
- Saiba como implementar TPUs no GKE.
- Experimente os tutoriais completos para o Ironwood (TPU7x):
- Execute a carga de trabalho de preparação com o Ironwood (TPU7x) e reservas através do Cloud Storage
- Execute a carga de trabalho de preparação com o Ironwood (TPU7x) com início flexível usando o armazenamento Filestore
- Execute a carga de trabalho de preparação com o Ironwood (TPU7x) e inicie de forma flexível com o armazenamento Lustre