Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Vista geral do Cluster Director de TPU

O TPU Cluster Director foi concebido para lhe dar controlo direto, baseado em reservas, sobre os seus Google Cloud aceleradores de IA. Para a Cloud TPU, as capacidades fundamentais do Cluster Director oferecem um nível de serviço que vai além de uma oferta multiinquilino para fornecer capacidade de TPU fisicamente isolada:

Capacidade dedicada e fisicamente colocada em conjunto: recebe reservas de TPUs densas e colocadas em conjunto, o que lhe dá controlo total sobre o hardware para um desempenho de rede e um agendamento de cargas de trabalho ideais.
Manutenção e controlo avançados: tem um controlo preciso sobre os eventos de manutenção, com a capacidade de segmentar VMs, cubos, pods ou reservas inteiras específicos, e gerir a sequência e o ritmo destes eventos para minimizar o impacto na empresa.
Agendamento com reconhecimento da topologia: tem uma vista completa da topologia física, do estado e da utilização do hardware, o que permite um posicionamento da carga de trabalho mais inteligente e orientado para o desempenho.

O Cluster Director foundations está totalmente integrado no Google Kubernetes Engine. Esta integração oferece várias funcionalidades para melhorar as cargas de trabalho de IA em grande escala:

Maior eficiência, tolerância a falhas e resiliência: oferece um ambiente robusto para tarefas de IA exigentes.
Workload placement e node pools com reconhecimento da topologia: as reservas densas localizadas em conjunto permitem-lhe segmentar Pods ou cubos específicos. Isto permite um agendamento de carga de trabalho mais detalhado.

Com as bases do Cluster Director no GKE, beneficia de uma melhor utilização, um desempenho e uma escalabilidade mais elevados das suas cargas de trabalho, um bom rendimento e uma fiabilidade melhorados, bem como uma observabilidade abrangente da capacidade física (desde os anfitriões até aos clusters do GKE).

As bases do Cluster Director das TPUs no GKE estão disponíveis através da nova reserva no modo de capacidade total.

Modo de capacidade total

Por predefinição, a capacidade da TPU é oferecida através de um modo "gerido", em que a Google substitui automaticamente todas as máquinas de TPU com falhas, mas retém parte da capacidade reservada para ajudar a garantir que as suas fatias de TPU têm os recursos necessários para reiniciar. Existe um modo de capacidade alternativo para a TPU conhecido como modo "All Capacity". Neste modo de capacidade, tem visibilidade total da topologia de hardware da TPU, do estado de utilização e do estado de funcionamento da capacidade reservada. Também tem acesso à sua capacidade reservada total, mas é responsável por gerir as falhas e a manutenção planeada.

As principais funcionalidades do modo de capacidade total incluem:

Controlo e visibilidade totais: tem controlo total sobre a capacidade reservada e visibilidade total do estado e da topologia do hardware. Isto significa que pode ver toda a capacidade disponível, incluindo as retenções, e gerir diretamente as falhas das máquinas.
Capacidade dedicada: pode aceder a capacidade dedicada que está sempre disponível para as suas cargas de trabalho de IA. Com capacidade total e sem restrições, tem maior previsibilidade e uma atribuição mais elevada, o que significa que pode usar cada bit da sua capacidade de TPU reservada. Agora, a sua capacidade de retenção também está acessível para executar as suas cargas de trabalho de prioridade inferior.
Desempenho otimizado: o modo de capacidade total da TPU oferece uma colocação conjunta densa de recursos de acelerador grandes com redes de latência muito baixa, o que é fundamental para cargas de trabalho de ML e HPC de grande escala e estreitamente acopladas. A arquitetura está otimizada para o máximo desempenho em cargas de trabalho de preparação e inferência.

Gerações de TPUs suportadas

O modo e as funcionalidades de capacidade total da TPU estão disponíveis no Trillium (TPU v6e), no Ironwood (TPU7x) e nas futuras gerações de TPUs. O modo de capacidade total da TPU não é suportado para gerações de TPUs mais antigas.

Terminologia do Cluster Director da TPU

A topologia do Cluster Director consiste em quatro níveis: cluster, bloco, sub-bloco e anfitrião. Um cluster é uma unidade de implementação da Google de capacidade física de TPU em múltiplos de pods. Toda a capacidade da TPU num cluster está numa zona. Uma reserva de TPU no modo de toda a capacidade está sempre dentro de um cluster. Para as TPUs, os restantes conceitos de topologia são mapeados para componentes físicos, conforme mostrado nas tabelas seguintes.

Trillium

Conceitos de topologia	Trillium	Núcleos	Batatas fritas	Anfitriões
---	Chip	1	1	N/A
Anfitrião	Anfitrião	8	8	1
Sub-block	Trillium Pod	256	256	32
Bloquear	Vários Trillium Pods (até 16) numa reserva	Até 4096	Até 4096	Até 512
---	Segmentos permitidos num sub-bloco	1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16 e 16x16
---	Uma reserva pode ter vários blocos e cada bloco pode ter entre 1 e 16 Trillium Pods

Para mais informações sobre os tamanhos das divisões do Trillium, consulte o artigo Configurações suportadas do Trillium.

Ironwood

Conceitos de topologia	Pau-ferro	Núcleos	Batatas fritas	Anfitriões
---	Chip	2	1	---
Anfitrião	Anfitrião	8	4	1
Sub-block	Cubo	128	64	16
Bloquear	Vários cubos de Ironwood até um agrupamento completo		Até 9216 (144 cubos)	Até 2304
---	Exemplos de tamanhos de segmentos permitidos num bloco	1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8 e 12x24x24 (e muitas mais)
---	Uma reserva pode ter um ou mais cubos Ironwood, até um Ironwood Pod completo.

Para mais informações sobre os tamanhos de fatias do Ironwood, consulte as configurações suportadas da TPU7x.