Vista geral do Cluster Director de TPU
O TPU Cluster Director foi concebido para lhe dar controlo direto, baseado em reservas, sobre os seus Google Cloud aceleradores de IA. Para a Cloud TPU, as capacidades fundamentais do Cluster Director oferecem um novo nível de serviço que vai além de uma oferta multi-inquilino para fornecer capacidade de TPU fisicamente isolada:
- Capacidade dedicada e fisicamente localizada: agora, oferecemos reservas de TPUs densas e localizadas, o que lhe dá controlo total sobre o hardware para um desempenho de rede e um agendamento de cargas de trabalho ideais.
- Manutenção e controlo avançados: tem um controlo preciso sobre os eventos de manutenção, com a capacidade de segmentar VMs, cubos, pods ou reservas inteiras específicos, e de gerir a sequência e o ritmo destes eventos para minimizar o impacto na empresa.
- Agendamento com reconhecimento da topologia: tem uma vista completa da topologia física, do estado e da utilização do hardware, o que permite um posicionamento da carga de trabalho mais inteligente e orientado para o desempenho.
O Cluster Director foundations está totalmente integrado no Google Kubernetes Engine. Esta integração oferece várias funcionalidades para melhorar as cargas de trabalho de IA em grande escala:
- Eficiência, tolerância a falhas e resiliência melhoradas: oferece um ambiente robusto para tarefas de IA exigentes.
- Node pools com reconhecimento de topologia e posicionamento de cargas de trabalho. – As reservas densas de localização conjunta permitem-lhe segmentar pods ou cubos específicos. Isto permite um agendamento de carga de trabalho mais detalhado.
Com as bases do Cluster Director no GKE, beneficia de uma melhor utilização, um desempenho e uma escalabilidade mais elevados das suas cargas de trabalho, um bom rendimento e uma fiabilidade melhorados, bem como uma observabilidade abrangente da capacidade física (desde os anfitriões até aos clusters do GKE).
As bases do Cluster Director das TPUs no GKE estão disponíveis através da nova reserva no modo de capacidade total.
Modo de capacidade total
Anteriormente, a capacidade da TPU era oferecida através de um modo "gerido", em que a Google substituía automaticamente todas as máquinas de TPU com falhas, mas retinha parte da capacidade reservada para ajudar a garantir que as suas fatias de TPU tinham os recursos necessários para serem reiniciadas. A Google apresenta agora um novo modo de capacidade para a TPU conhecido como modo "All Capacity". Neste modo de capacidade, tem visibilidade total da topologia de hardware da TPU, do estado de utilização e do estado de funcionamento da capacidade reservada. Também tem acesso à sua capacidade reservada total, mas é responsável por gerir as falhas e a manutenção planeada.
As principais funcionalidades do modo de capacidade total incluem:
- Controlo e visibilidade totais: tem controlo total sobre a capacidade reservada e visibilidade total do estado e da topologia do hardware. Isto significa que pode ver toda a capacidade disponível, incluindo as retenções, e gerir diretamente as falhas das máquinas.
- Capacidade dedicada: pode aceder a capacidade dedicada que está sempre disponível para as suas cargas de trabalho de IA. Com a capacidade total e sem restrições, tem uma maior previsibilidade e uma atribuição mais elevada, o que significa que pode usar cada parte da capacidade de TPU reservada. Agora, a sua capacidade de retenção também está acessível para executar as suas cargas de trabalho de prioridade inferior.
- Desempenho otimizado: o modo de capacidade total da TPU oferece uma colocação conjunta densa de recursos de aceleradores grandes com redes de latência muito baixa, o que é fundamental para cargas de trabalho de ML e HPC de grande escala e estreitamente acopladas. A arquitetura está otimizada para o máximo desempenho em cargas de trabalho de preparação e inferência.
Gerações de TPUs suportadas
O modo e as funcionalidades de capacidade total da TPU estão disponíveis no Trillium (TPU v6e), no Ironwood (TPU7x) e nas futuras gerações de TPUs. Não está previsto o suporte para gerações de TPUs mais antigas.
Terminologia do Cluster Director da TPU
Os conceitos de topologia do Cluster Director consistem em quatro níveis: cluster, bloco, sub-bloco e anfitrião. Um cluster é uma unidade de implementação da Google de capacidade de TPU física em múltiplos de pods. Toda a capacidade da TPU num cluster está numa zona. Uma reserva de TPU no modo de toda a capacidade está sempre dentro de um cluster. Para as TPUs, os restantes conceitos de topologia são mapeados para componentes físicos, conforme mostrado nas tabelas seguintes.
Trillium
| Conceitos de topologia | Trillium | Núcleos | Batatas fritas | Anfitriões |
|---|---|---|---|---|
| --- | Chip | 1 | 1 | N/A |
| Anfitrião | Anfitrião | 8 | 8 | 1 |
| Sub-block | Trillium Pod | 256 | 256 | 32 |
| Bloquear | Vários Trillium Pods (até 16) numa reserva | Até 4096 |
Até 4096 |
Até 512 |
| --- | Segmentos permitidos num sub-bloco | 1x1, 2x2, 2x4, 4x4, 4x8, 8x8, 8x16 e 16x16 | ||
| --- | Uma reserva pode ter vários blocos e cada bloco pode ter entre 1 e 16 Trillium Pods | |||
Para mais informações sobre os tamanhos das divisões do Trillium, consulte o artigo Configurações suportadas do Trillium.
Ironwood
| Conceitos de topologia | Pau-ferro | Núcleos | Batatas fritas | Anfitriões |
|---|---|---|---|---|
| --- | Chip | 2 | 1 | --- |
| Anfitrião | Anfitrião | 8 | 4 | 1 |
| SubBlock | Cubo | 128 | 64 | 16 |
| Bloquear | Vários cubos de Ironwood até um agrupamento completo | Até 9216 (144 cubos) | Até 2304 | |
| --- | Exemplos de segmentos permitidos num bloco | 1x1x1, 2x2x1, 2x2x2, 2x4x4, 4x4x4, 8x8x8, 16x8x8, 16x16x8 e 12x24x24 (e muitos mais) | ||
| --- | Uma reserva pode ter um ou mais cubos Ironwood, até um Ironwood Pod completo. |
Para mais informações sobre os tamanhos de fatias do Ironwood, consulte as configurações suportadas do TPUv7x.