Visão geral do Cluster Director da TPU
O Cluster Director da TPU foi projetado para oferecer controle direto e baseado em reserva sobre seus Google Cloud aceleradores de IA. Para o Cloud TPU, os recursos básicos do Cluster Director oferecem um nível de serviço que vai além de uma oferta multitenant para oferecer capacidade de TPU isolada fisicamente:
- Capacidade dedicada e fisicamente colocalizada: você recebe reservas de TPU densas e colocalizadas , oferecendo controle total sobre o hardware para otimizar a performance da rede e o agendamento de cargas de trabalho.
- Manutenção e controle avançados: você tem controle preciso sobre eventos de manutenção , com a capacidade de segmentar VMs, cubos, pods ou reservas inteiras e gerenciar a sequência e o ritmo desses eventos para minimizar o impacto nos negócios.
- Agendamento com reconhecimento de topologia: você tem uma visão completa da topologia física, da integridade e da utilização do hardware, permitindo um posicionamento de carga de trabalho mais inteligente e orientado à performance.
As bases do Cluster Director são totalmente integradas ao Google Kubernetes Engine. Essa integração oferece vários recursos para melhorar cargas de trabalho de IA em grande escala:
- Eficiência, tolerância a falhas e resiliência aprimoradas: oferece um ambiente robusto para tarefas de IA exigentes.
- Pools de nós e posicionamento de carga de trabalho com reconhecimento de topologia: reservas densas colocalizadas permitem segmentar pods ou cubos específicos. Isso permite um agendamento de carga de trabalho mais refinado.
Com as bases do Cluster Director no GKE, você se beneficia de melhor utilização, maior performance e escalonabilidade das cargas de trabalho, melhor taxa de transferência e confiabilidade e observabilidade abrangente da capacidade física (de hosts até clusters do GKE).
As bases do Cluster Director da TPU no GKE estão disponíveis na nova reserva do modo "Toda a capacidade".
Modo "Toda a capacidade"
Por padrão, a capacidade da TPU é oferecida no modo "gerenciado", em que o Google substitui automaticamente todas as máquinas de TPU com falha, mas retém parte da capacidade reservada para garantir que as fatias de TPU tenham os recursos necessários para serem reiniciadas. Há um modo de capacidade alternativo para TPU conhecido como modo "Toda a capacidade". Nesse modo, você tem visibilidade total da topologia de hardware da TPU, do status de utilização e do status de integridade da capacidade reservada. Você também tem acesso à capacidade reservada completa, mas é responsável por gerenciar falhas e manutenção planejada.
Os principais recursos do modo "Toda a capacidade" incluem:
- Controle e visibilidade totais: você tem controle total sobre a capacidade reservada e visibilidade completa da integridade e da topologia do hardware. Isso significa que você pode ver toda a capacidade disponível, incluindo retenções, e gerenciar falhas de máquinas diretamente.
- Capacidade dedicada: você pode acessar a capacidade dedicada que está sempre disponível para suas cargas de trabalho de IA. Com capacidade total e sem retenções, você tem maior previsibilidade e alocação, o que significa que pode utilizar cada bit da capacidade de TPU reservada. Agora, a capacidade de retenção também está acessível para executar cargas de trabalho de menor prioridade.
- Performance otimizada: o modo "Toda a capacidade" da TPU oferece colocalização densa de grandes recursos de acelerador com rede de latência ultrabaixa, o que é fundamental para cargas de trabalho de ML e HPC em grande escala e fortemente acopladas. A arquitetura é otimizada para performance máxima em cargas de trabalho de treinamento e inferência.
Gerações de TPU com suporte
O modo "Toda a capacidade" e os recursos da TPU estão disponíveis no Trillium (TPU v6e), no TPU Ironwood (TPU7x) e em gerações futuras de TPU. O modo "Toda a capacidade" da TPU não é compatível com gerações mais antigas.
Terminologia do Cluster Director da TPU
A topologia do Cluster Director consiste em quatro níveis: cluster, bloco, sub-bloco e host. Um cluster é uma unidade de implantação do Google de capacidade física de TPU em múltiplos de pods. Toda a capacidade de TPU em um cluster está em uma zona. Uma reserva de TPU no modo "Toda a capacidade" está sempre em um cluster. Para TPUs, o restante dos conceitos de topologia é mapeado para componentes físicos, conforme mostrado nas tabelas a seguir.
Trillium
| Conceitos de topologia | Trillium | Núcleos | Chips | Hosts |
|---|---|---|---|---|
| --- | Ícone | 1 | 1 | N/A |
| Host | Host | 8 | 8 | 1 |
| Sub-bloco | Pod do Trillium | 256 | 256 | 32 |
| Bloco | Vários pods do Trillium (até 16) em uma reserva | Até 4.096 |
Até 4.096 |
Até 512 |
| --- | Fatias permitidas em um sub-bloco | 1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16 e 16x16 | ||
| --- | Uma reserva pode ter vários blocos, e cada bloco pode ter de 1 a 16 pods do Trillium | |||
Para mais informações sobre os tamanhos de fatias do Trillium, consulte Configurações com suporte do Trillium.
Ironwood
| Conceitos de topologia | Ironwood | Núcleos | Chips | Hosts |
|---|---|---|---|---|
| --- | Ícone | 2 | 1 | --- |
| Host | Host | 8 | 4 | 1 |
| Sub-bloco | Cubo | 128 | 64 | 16 |
| Bloco | Vários cubos do Ironwood até um pod completo | Até 9.216 (144 cubos) | Até 2.304 | |
| --- | Exemplos de tamanhos de fatias permitidos em um bloco | 1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8 e 12x24x24 (e muitos outros) | ||
| --- | Uma reserva pode ter um ou mais cubos do Ironwood, até um pod completo do Ironwood. |
Para mais informações sobre os tamanhos de fatias do Ironwood, consulte Configurações com suporte do TPU7x.