Visão geral do Cluster Director de TPU
O TPU Cluster Director foi projetado para oferecer controle direto e baseado em reservas sobre seus aceleradores de IA Google Cloud . Para o Cloud TPU, os recursos básicos do Cluster Director oferecem um nível de serviço que vai além de uma oferta multitenant para fornecer capacidade de TPU isolada fisicamente:
- Capacidade dedicada e fisicamente colocalizada: você recebe reservas de TPU densas e colocalizadas, o que dá controle total sobre o hardware para otimizar o desempenho da rede e o agendamento de cargas de trabalho.
- Controle e manutenção avançados: você tem controle preciso sobre eventos de manutenção, podendo segmentar VMs, cubos, pods ou reservas inteiras específicas e gerenciar a sequência e o ritmo desses eventos para minimizar o impacto nos negócios.
- Programação com reconhecimento de topologia: você tem uma visão completa da topologia física, da integridade e da utilização do hardware, permitindo um posicionamento mais inteligente e orientado à performance da carga de trabalho.
Os fundamentos do Cluster Director são totalmente integrados ao Google Kubernetes Engine. Essa integração oferece vários recursos para melhorar as cargas de trabalho de IA em grande escala:
- Melhor eficiência, tolerância a falhas e resiliência: oferece um ambiente robusto para tarefas de IA exigentes.
- Pools de nós e posicionamento de cargas de trabalho com reconhecimento de topologia: as reservas densas colocalizadas permitem segmentar pods ou cubos específicos. Isso permite um agendamento mais refinado da carga de trabalho.
Com os fundamentos do Cluster Director no GKE, você se beneficia de melhor utilização, maior desempenho e escalonabilidade das cargas de trabalho, melhor taxa de transferência e confiabilidade, além de observabilidade abrangente da capacidade física (de hosts até clusters do GKE).
As bases do Cluster Director de TPUs no GKE estão disponíveis com a nova reserva de modo de capacidade total.
Modo de capacidade total
Por padrão, a capacidade da TPU é oferecida em um modo "gerenciado", em que o Google substitui automaticamente todas as máquinas de TPU com falha, mas retém parte da capacidade reservada para garantir que as frações de TPU tenham os recursos necessários para reiniciar. Há um modo de capacidade alternativo para TPU conhecido como "All Capacity". Nesse modo, você tem visibilidade total da topologia de hardware, do status de utilização e da integridade da capacidade reservada. Você também tem acesso à capacidade reservada total, mas é responsável por gerenciar falhas e manutenção planejada.
Os principais recursos do modo "Toda a capacidade" incluem:
- Controle e visibilidade totais: você tem controle total sobre a capacidade reservada e visibilidade completa da integridade e da topologia do hardware. Isso significa que você pode ver toda a capacidade disponível, incluindo retenções, e gerenciar falhas de máquinas diretamente.
- Capacidade dedicada: você pode acessar capacidade dedicada que está sempre disponível para suas cargas de trabalho de IA. Com capacidade total e sem restrições, você tem maior previsibilidade e alocação, o que significa que pode usar toda a capacidade da TPU reservada. Agora, a capacidade de retenção também está acessível para executar cargas de trabalho de menor prioridade.
- Desempenho otimizado: o modo de capacidade total da TPU oferece colocalização densa de recursos de acelerador grandes com rede de latência ultrabaixa, o que é essencial para cargas de trabalho de ML e HPC em grande escala e fortemente acopladas. A arquitetura é otimizada para oferecer o máximo de desempenho em cargas de trabalho de treinamento e inferência.
Gerações de TPU compatíveis
O modo e os recursos de capacidade total da TPU estão disponíveis no Trillium (TPU v6e), no Ironwood (TPU7x) e em gerações futuras de TPU. O modo de capacidade total da TPU não é compatível com gerações mais antigas de TPUs.
Terminologia do Cluster Director da TPU
A topologia do Cluster Director consiste em quatro níveis: cluster, bloco, sub-bloco e host. Um cluster é uma unidade de implantação do Google de capacidade física de TPU em múltiplos de pods. Toda a capacidade de TPU em um cluster está em uma zona. Uma reserva de TPU no modo "Toda a capacidade" está sempre em um cluster. Para TPUs, o restante dos conceitos de topologia é mapeado para componentes físicos, conforme mostrado nas tabelas a seguir.
Trillium
| Conceitos de topologia | Trillium | Núcleos | Chips | Hosts |
|---|---|---|---|---|
| --- | Ícone | 1 | 1 | N/A |
| Host | Host | 8 | 8 | 1 |
| Sub-bloco | Pod do Trillium | 256 | 256 | 32 |
| Bloquear | Vários pods do Trillium (até 16) em uma reserva | Até 4.096 |
Até 4.096 |
Até 512 |
| --- | Slices permitidas em um sub-bloco | 1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16 e 16x16 | ||
| --- | Uma reserva pode ter vários blocos, e cada bloco pode ter de 1 a 16 pods Trillium. | |||
Para mais informações sobre tamanhos de fração do Trillium, consulte Configurações compatíveis com o Trillium.
Ironwood
| Conceitos de topologia | Ironwood | Núcleos | Chips | Hosts |
|---|---|---|---|---|
| --- | Ícone | 2 | 1 | --- |
| Host | Host | 8 | 4 | 1 |
| Sub-bloco | Cubo | 128 | 64 | 16 |
| Bloquear | Vários cubos Ironwood até um pod completo | Até 9.216 (144 cubos) | Até 2304 | |
| --- | Exemplos de tamanhos de slice permitidos em um bloco | 1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8 e 12x24x24 (e muito mais) | ||
| --- | Uma reserva pode ter um ou mais cubos do Ironwood, até um pod completo do Ironwood. |
Para mais informações sobre tamanhos de fração do Ironwood, consulte Configurações compatíveis com TPU7x.