Visão geral do Cluster Director da TPU

O Cluster Director da TPU foi projetado para oferecer controle direto e baseado em reserva sobre seus Google Cloud aceleradores de IA. Para o Cloud TPU, os recursos básicos do Cluster Director oferecem um nível de serviço que vai além de uma oferta multitenant para oferecer capacidade de TPU isolada fisicamente:

  • Capacidade dedicada e fisicamente colocalizada: você recebe reservas de TPU densas e colocalizadas , oferecendo controle total sobre o hardware para otimizar a performance da rede e o agendamento de cargas de trabalho.
  • Manutenção e controle avançados: você tem controle preciso sobre eventos de manutenção , com a capacidade de segmentar VMs, cubos, pods ou reservas inteiras e gerenciar a sequência e o ritmo desses eventos para minimizar o impacto nos negócios.
  • Agendamento com reconhecimento de topologia: você tem uma visão completa da topologia física, da integridade e da utilização do hardware, permitindo um posicionamento de carga de trabalho mais inteligente e orientado à performance.

As bases do Cluster Director são totalmente integradas ao Google Kubernetes Engine. Essa integração oferece vários recursos para melhorar cargas de trabalho de IA em grande escala:

  • Eficiência, tolerância a falhas e resiliência aprimoradas: oferece um ambiente robusto para tarefas de IA exigentes.
  • Pools de nós e posicionamento de carga de trabalho com reconhecimento de topologia: reservas densas colocalizadas permitem segmentar pods ou cubos específicos. Isso permite um agendamento de carga de trabalho mais refinado.

Com as bases do Cluster Director no GKE, você se beneficia de melhor utilização, maior performance e escalonabilidade das cargas de trabalho, melhor taxa de transferência e confiabilidade e observabilidade abrangente da capacidade física (de hosts até clusters do GKE).

As bases do Cluster Director da TPU no GKE estão disponíveis na nova reserva do modo "Toda a capacidade".

Modo "Toda a capacidade"

Por padrão, a capacidade da TPU é oferecida no modo "gerenciado", em que o Google substitui automaticamente todas as máquinas de TPU com falha, mas retém parte da capacidade reservada para garantir que as fatias de TPU tenham os recursos necessários para serem reiniciadas. Há um modo de capacidade alternativo para TPU conhecido como modo "Toda a capacidade". Nesse modo, você tem visibilidade total da topologia de hardware da TPU, do status de utilização e do status de integridade da capacidade reservada. Você também tem acesso à capacidade reservada completa, mas é responsável por gerenciar falhas e manutenção planejada.

Os principais recursos do modo "Toda a capacidade" incluem:

  • Controle e visibilidade totais: você tem controle total sobre a capacidade reservada e visibilidade completa da integridade e da topologia do hardware. Isso significa que você pode ver toda a capacidade disponível, incluindo retenções, e gerenciar falhas de máquinas diretamente.
  • Capacidade dedicada: você pode acessar a capacidade dedicada que está sempre disponível para suas cargas de trabalho de IA. Com capacidade total e sem retenções, você tem maior previsibilidade e alocação, o que significa que pode utilizar cada bit da capacidade de TPU reservada. Agora, a capacidade de retenção também está acessível para executar cargas de trabalho de menor prioridade.
  • Performance otimizada: o modo "Toda a capacidade" da TPU oferece colocalização densa de grandes recursos de acelerador com rede de latência ultrabaixa, o que é fundamental para cargas de trabalho de ML e HPC em grande escala e fortemente acopladas. A arquitetura é otimizada para performance máxima em cargas de trabalho de treinamento e inferência.

Gerações de TPU com suporte

O modo "Toda a capacidade" e os recursos da TPU estão disponíveis no Trillium (TPU v6e), no TPU Ironwood (TPU7x) e em gerações futuras de TPU. O modo "Toda a capacidade" da TPU não é compatível com gerações mais antigas.

Terminologia do Cluster Director da TPU

A topologia do Cluster Director consiste em quatro níveis: cluster, bloco, sub-bloco e host. Um cluster é uma unidade de implantação do Google de capacidade física de TPU em múltiplos de pods. Toda a capacidade de TPU em um cluster está em uma zona. Uma reserva de TPU no modo "Toda a capacidade" está sempre em um cluster. Para TPUs, o restante dos conceitos de topologia é mapeado para componentes físicos, conforme mostrado nas tabelas a seguir.

Trillium

Conceitos de topologia Trillium Núcleos Chips Hosts
--- Ícone 1 1 N/A
Host Host 8 8 1
Sub-bloco Pod do Trillium 256 256 32
Bloco Vários pods do Trillium (até 16) em uma reserva

Até 4.096

Até 4.096

Até 512

--- Fatias permitidas em um sub-bloco 1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16 e 16x16
--- Uma reserva pode ter vários blocos, e cada bloco pode ter de 1 a 16 pods do Trillium

Para mais informações sobre os tamanhos de fatias do Trillium, consulte Configurações com suporte do Trillium.

Ironwood

Conceitos de topologia Ironwood Núcleos Chips Hosts
--- Ícone 2 1 ---
Host Host 8 4 1
Sub-bloco Cubo 128 64 16
Bloco Vários cubos do Ironwood até um pod completo Até 9.216 (144 cubos) Até 2.304
--- Exemplos de tamanhos de fatias permitidos em um bloco 1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8 e 12x24x24 (e muitos outros)
--- Uma reserva pode ter um ou mais cubos do Ironwood, até um pod completo do Ironwood.

Para mais informações sobre os tamanhos de fatias do Ironwood, consulte Configurações com suporte do TPU7x.