Recursos de gerenciamento de clusters

As séries de máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega, e A3 High (8 GPUs) foram projetadas para permitir que você execute clusters de inteligência artificial (IA) e aprendizado de máquina (ML) em grande escala e oferecem os seguintes recursos de gerenciamento de clusters:

Colocação de recursos de infraestrutura de IA

Ao usar A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs), é possível solicitar máquinas host que o Compute Engine provisiona o mais próximo possível. Essas máquinas oferecem os seguintes recursos:

Essa organização de recursos minimiza os saltos de rede e otimiza a menor latência de rede. Para saber mais sobre como conseguir capacidade para implantar blocos de máquinas otimizadas para aceleradores alocados densamente, consulte Visão geral da capacidade.

Posicionamento com reconhecimento de topologia de cluster

Depois de criar instâncias de computação usando os tipos de máquina A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs), é possível receber informações de topologia nos níveis de nó e cluster. Essas informações ajudam você a fazer o seguinte:

  • Ajustar o design do aplicativo ou da carga de trabalho para minimizar ainda mais a latência de rede.

  • Entender e solucionar problemas de latência e desempenho de rede para instâncias que se comunicam com frequência. Esses problemas podem ocorrer se as instâncias estiverem inesperadamente distantes umas das outras.

Para mais informações, consulte Ver a topologia de instâncias de computação.

Modo operacional do cluster

Ao reservar capacidade para criar instâncias ou clusters de computação usando os tipos de máquina A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs), o tipo de máquina reservado determina o modo operacional do cluster para as instâncias. Esse modo especifica como as instâncias se comportam após erros do host ou relatórios de host com falha. Os modos operacionais disponíveis para uma instância são modo gerenciado, em que o Compute Engine substitui automaticamente todas as máquinas com falha , mas retém parte da capacidade reservada para garantir que as instâncias tenham os recursos necessários para serem reiniciadas. Ou modo de capacidade total, em que você tem acesso à capacidade reservada completa, mas é responsável por gerenciar falhas e manutenção planejada.

Para mais informações, consulte Modo operacional de reserva.

Programação e controles de manutenção de clusters

Você controla a manutenção das máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs) usando o agendamento com reconhecimento de topologia em um bloco de recursos. Esse recurso ajuda a sincronizar upgrades para que as cargas de trabalho sejam mais resilientes a eventos de host e minimizem interrupções. Essa abordagem ajuda a melhorar o throughput da carga de trabalho.

Para facilitar o controle total dos eventos de manutenção, use os seguintes recursos:

Tipo de programação de manutenção

Ao reservar capacidade para criar instâncias ou clusters de máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs), é possível definir como o Compute Engine mantém a infraestrutura em que as instâncias são executadas. Com base no tipo de máquina que você quer usar para as instâncias, é possível escolher entre a manutenção sincronizada em instâncias (agrupadas) ou programações de manutenção diferentes (independentes).

Para mais informações, consulte Tipos de programação de manutenção.

Gerenciar eventos de host

Depois de criar instâncias A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs) e iniciar a carga de trabalho, é possível configurar alertas e receber notificações quando a manutenção das instâncias ou blocos reservados for programada, iniciada ou concluída. Também é possível visualizar e, se necessário, iniciar manualmente a manutenção em uma instância ou bloco reservado antes do horário programado. Essas opções ajudam você a controlar e minimizar proativamente as inatividades das cargas de trabalho.

Para mais informações, consulte os seguintes tópicos:

Ferramentas de monitoramento e diagnóstico de clusters

Para monitoramento e solução de problemas, as máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs) incluem os seguintes serviços:

A seguir