Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Visão geral do Cluster Director de TPU

O TPU Cluster Director foi projetado para oferecer controle direto, baseado em reservas, sobre seus aceleradores de IA Google Cloud . Para o Cloud TPU, os recursos básicos do Cluster Director oferecem um nível de serviço que vai além de uma oferta multitenant para fornecer capacidade de TPU isolada fisicamente:

Capacidade dedicada e fisicamente colocalizada: você recebe reservas de TPU densas e colocalizadas, o que dá controle total sobre o hardware para otimizar o desempenho da rede e o agendamento de cargas de trabalho.
Controle e manutenção avançados: você tem controle preciso sobre eventos de manutenção, podendo segmentar VMs, cubos, pods ou reservas inteiras específicas e gerenciar a sequência e o ritmo desses eventos para minimizar o impacto nos negócios.
Programação com reconhecimento de topologia: você tem uma visão completa da topologia física, da integridade e da utilização do hardware, permitindo um posicionamento mais inteligente e orientado à performance da carga de trabalho.

Os fundamentos do Cluster Director são totalmente integrados ao Google Kubernetes Engine. Essa integração oferece vários recursos para melhorar as cargas de trabalho de IA em grande escala:

Melhor eficiência, tolerância a falhas e resiliência: oferece um ambiente robusto para tarefas exigentes de IA.
Pools de nós e posicionamento de carga de trabalho com reconhecimento de topologia: reservas densas colocalizadas permitem segmentar pods ou cubos específicos. Isso permite um agendamento mais refinado da carga de trabalho.

Com os fundamentos do Cluster Director no GKE, você se beneficia de melhor utilização, maior desempenho e escalonabilidade das suas cargas de trabalho, melhor taxa de transferência e confiabilidade, além de observabilidade abrangente da capacidade física (de hosts até clusters do GKE).

As bases do Cluster Director de TPUs no GKE estão disponíveis com a nova reserva de modo de capacidade total.

Modo de capacidade total

Por padrão, a capacidade de TPU é oferecida no modo "gerenciado", em que o Google substitui automaticamente todas as máquinas de TPU com falha, mas retém parte da capacidade reservada para garantir que as frações de TPU tenham os recursos necessários para reiniciar. Há um modo de capacidade alternativo para TPU conhecido como "All Capacity". Nesse modo, você tem visibilidade total da topologia de hardware, do status de utilização e do status de integridade da capacidade reservada. Você também tem acesso à capacidade reservada total, mas é responsável por gerenciar falhas e manutenção planejada.

Os principais recursos do modo "Toda a capacidade" incluem:

Controle e visibilidade totais: você tem controle total sobre a capacidade reservada e visibilidade completa da integridade e da topologia do hardware. Isso significa que você pode ver toda a capacidade disponível, incluindo retenções, e gerenciar falhas de máquina diretamente.
Capacidade dedicada: você pode acessar uma capacidade dedicada que está sempre disponível para suas cargas de trabalho de IA. Com capacidade total e sem retenções, você tem maior previsibilidade e alocação, o que significa que você pode usar cada parte da capacidade reservada da TPU. Agora, a capacidade de retenção também está acessível para executar cargas de trabalho de menor prioridade.
Desempenho otimizado: o modo de capacidade total da TPU oferece colocalização densa de recursos de acelerador grandes com rede de latência ultrabaixa, o que é fundamental para cargas de trabalho de ML e HPC em grande escala e fortemente acopladas. A arquitetura é otimizada para oferecer o máximo de desempenho em cargas de trabalho de treinamento e inferência.

Gerações de TPU compatíveis

O modo e os recursos de capacidade total da TPU estão disponíveis no Trillium (TPU v6e), no Ironwood (TPU7x) e em gerações futuras de TPU. O modo de capacidade total da TPU não é compatível com gerações mais antigas.

Terminologia do Cluster Director da TPU

A topologia do Cluster Director consiste em quatro níveis: cluster, bloco, subbloco e host. Um cluster é uma unidade de implantação do Google de capacidade física de TPU em múltiplos de pods. Toda a capacidade de TPU em um cluster está em uma zona. Uma reserva de TPU no modo "Toda a capacidade" está sempre em um cluster. Para TPUs, o restante dos conceitos de topologia é mapeado para componentes físicos, conforme mostrado nas tabelas a seguir.

Trillium

Conceitos de topologia	Trillium	Núcleos	Chips	Hosts
---	Ícone	1	1	N/A
Host	Host	8	8	1
Sub-bloco	Trillium Pod	256	256	32
Bloquear	Vários pods do Trillium (até 16) em uma reserva	Até 4.096	Até 4.096	Até 512
---	Permitir intervalos em um subbloco	1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16 e 16x16
---	Uma reserva pode ter vários blocos, e cada bloco pode ter de 1 a 16 pods do Trillium.

Para mais informações sobre tamanhos de fração do Trillium, consulte Configurações compatíveis com o Trillium.

Ironwood

Conceitos de topologia	Ironwood	Núcleos	Chips	Hosts
---	Ícone	2	1	---
Host	Host	8	4	1
Sub-bloco	Cubo	128	64	16
Bloquear	Vários cubos Ironwood até um pod completo		Até 9.216 (144 cubos)	Até 2304
---	Exemplos de tamanhos de slice permitidos em um bloco	1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8 e 12x24x24 (e muito mais)
---	Uma reserva pode ter um ou mais cubos do Ironwood, até um pod completo do Ironwood.

Para mais informações sobre tamanhos de fração do Ironwood, consulte Configurações compatíveis com TPU7x.