Visão geral do Cluster Director da TPU
O TPU Cluster Director foi projetado para oferecer controle direto, com base em reservas, sobre seus aceleradores de IA Google Cloud . Para o Cloud TPU, as funcionalidades básicas do Cluster Director oferecem um novo nível de serviço que vai além de uma oferta multitenant para fornecer capacidade de TPU isolada fisicamente:
- Capacidade dedicada e fisicamente localizada: Agora oferecemos reservas de TPU densas e localizadas, proporcionando controle total sobre seu hardware para um desempenho de rede e agendamento de carga de trabalho ideais.
- Controle e manutenção avançados: você tem controle preciso sobre eventos de manutenção, podendo segmentar VMs, cubos, pods ou reservas inteiras específicas e gerenciar a sequência e o ritmo desses eventos para minimizar o impacto nos negócios.
- Programação com reconhecimento de topologia: você tem uma visão completa da topologia física, da integridade e da utilização do hardware, permitindo um posicionamento de carga de trabalho mais inteligente e orientado à performance.
Os fundamentos do Cluster Director são totalmente integrados ao Google Kubernetes Engine. Essa integração oferece vários recursos para melhorar as cargas de trabalho de IA em grande escala:
- Melhoria na eficiência, na tolerância a falhas e na resiliência: oferece um ambiente robusto para tarefas exigentes de IA.
- Pools de nós e posicionamento de carga de trabalho com reconhecimento de topologia. - As reservas densas colocalizadas permitem segmentar pods ou cubos específicos. Isso permite um agendamento mais refinado da carga de trabalho.
Com os fundamentos do Cluster Director no GKE, você se beneficia de melhor utilização, maior desempenho e escalonabilidade das suas cargas de trabalho, melhor taxa de transferência e confiabilidade, além de observabilidade abrangente da capacidade física (de hosts até clusters do GKE).
As bases do Cluster Director de TPUs no GKE estão disponíveis com a nova reserva de modo de capacidade total.
Modo de capacidade total
Antes, a capacidade de TPU era oferecida em um modo "gerenciado", em que o Google substituía automaticamente qualquer máquina de TPU com falha, mas retinha parte da capacidade reservada para garantir que as frações de TPU tivessem os recursos necessários para reiniciar. O Google agora apresenta um novo modo de capacidade para TPU conhecido como modo "All Capacity". Nesse modo, você tem visibilidade total da topologia de hardware, do status de utilização e da integridade da capacidade reservada. Você também tem acesso à capacidade reservada total, mas é responsável por gerenciar falhas e manutenção planejada.
Os principais recursos do modo de capacidade total incluem:
- Controle e visibilidade totais: você tem controle total sobre a capacidade reservada e visibilidade completa da integridade e da topologia do hardware. Isso significa que você pode ver toda a capacidade disponível, incluindo retenções, e gerenciar falhas de máquinas diretamente.
- Capacidade dedicada: você pode acessar uma capacidade dedicada que está sempre disponível para suas cargas de trabalho de IA. Com capacidade total e sem retenções, você tem maior previsibilidade e alocação, o que significa que você pode usar cada parte da capacidade da TPU reservada. Agora, a capacidade de retenção também está acessível para executar cargas de trabalho de menor prioridade.
- Desempenho otimizado: o modo de capacidade total da TPU oferece colocalização densa de recursos de acelerador grandes com rede de latência ultrabaixa, o que é essencial para cargas de trabalho de ML e HPC em grande escala e fortemente acopladas. A arquitetura é otimizada para oferecer o máximo de desempenho em cargas de trabalho de treinamento e inferência.
Gerações de TPU disponíveis
O modo e os recursos de capacidade total da TPU estão disponíveis no Trillium (TPU v6e), no TPU Ironwood (TPU7x) e em gerações futuras de TPU. Não há planos para oferecer suporte a gerações mais antigas de TPUs.
Terminologia do Cluster Director da TPU
Os conceitos de topologia do Cluster Director consistem em quatro níveis: Cluster, Block, Sub-block e Host. Um cluster é uma unidade de implantação do Google de capacidade física de TPU em múltiplos de pods. Toda a capacidade de TPU em um cluster está em uma zona. Uma reserva de TPU no modo "Toda a capacidade" está sempre em um cluster. Para TPUs, o restante dos conceitos de topologia é mapeado para componentes físicos, conforme mostrado nas tabelas a seguir.
Trillium
| Conceitos de topologia | Trillium | Núcleos | Chips | Hosts |
|---|---|---|---|---|
| --- | Ícone | 1 | 1 | N/A |
| Host | Host | 8 | 8 | 1 |
| Sub-bloco | Pod do Trillium | 256 | 256 | 32 |
| Bloquear | Vários pods do Trillium (até 16) em uma reserva | Até 4.096 |
Até 4.096 |
Até 512 |
| --- | Slices permitidas em um sub-bloco | 1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16 e 16x16 | ||
| --- | Uma reserva pode ter vários blocos, e cada bloco pode ter de 1 a 16 pods Trillium. | |||
Para mais informações sobre tamanhos de fração do Trillium, consulte Configurações compatíveis com o Trillium.
Ironwood
| Conceitos de topologia | Ironwood | Núcleos | Chips | Hosts |
|---|---|---|---|---|
| --- | Ícone | 2 | 1 | --- |
| Host | Host | 8 | 4 | 1 |
| SubBlock | Cubo | 128 | 64 | 16 |
| Bloquear | Vários cubos Ironwood até um pod completo | Até 9.216 (144 cubos) | Até 2304 | |
| --- | Segmentação permitida em um bloco: exemplos | 1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8 e 12x24x24 (e muito mais) | ||
| --- | Uma reserva pode ter um ou mais cubos do Ironwood, até um pod completo do Ironwood. |
Para mais informações sobre tamanhos de fração do Ironwood, consulte Configurações compatíveis com TPUv7x.