Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Recursos de gerenciamento de clusters

As séries de máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs) foram projetadas para permitir que você execute clusters de inteligência artificial (IA) e machine learning (ML) em grande escala e oferecem os seguintes recursos de gerenciamento de clusters:

Colocação de recursos de infraestrutura de IA
Posicionamento com reconhecimento de topologia do cluster
Modo operacional do cluster
Controles e programação de manutenção do cluster
Ferramentas de monitoramento e diagnóstico de cluster

Colocação de recursos de infraestrutura de IA

Ao usar A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs), é possível solicitar máquinas host que o Compute Engine provisiona o mais próximo possível. Essas máquinas oferecem os seguintes recursos:

O Compute Engine provisiona as máquinas como blocos de recursos.
Uma estrutura de rede de machine learning (ML) dinâmica interconecta as máquinas.

Essa organização de recursos minimiza os saltos da rede e otimiza a menor latência de rede. Para saber mais sobre como conseguir capacidade para implantar blocos de máquinas com otimização para aceleradores alocados de forma densa, consulte Visão geral da capacidade.

Posicionamento com reconhecimento de topologia do cluster

Depois de criar instâncias de computação usando os tipos de máquina A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs), é possível receber informações de topologia nos níveis de nó e cluster. Essas informações ajudam você a:

Ajuste o design do aplicativo ou da carga de trabalho para minimizar ainda mais a latência de rede.
Entenda e resolva problemas de latência e desempenho da rede para instâncias que se comunicam com frequência. Esses problemas podem ocorrer se as instâncias estiverem inesperadamente localizadas muito distantes umas das outras.

Para mais informações, consulte Ver a topologia das instâncias de computação.

Modo operacional do cluster

Ao reservar capacidade para criar instâncias ou clusters de computação usando os tipos de máquina A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs), o tipo de máquina reservado determina o modo operacional do cluster para as instâncias. Esse modo especifica como as instâncias se comportam após erros de host ou relatórios de host com falha. Os modos operacionais disponíveis para uma instância são modo gerenciado, em que o Compute Engine substitui automaticamente todas as máquinas com falha, mas retém parte da capacidade reservada para garantir que as instâncias tenham os recursos necessários para serem reiniciadas. Ou o modo de capacidade total, em que você tem acesso a toda a capacidade reservada, mas é responsável por gerenciar falhas e manutenção planejada.

Para mais informações, consulte Modo operacional de reserva.

Programação e controles de manutenção do cluster

Você controla a manutenção das máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs) usando o agendamento com reconhecimento de topologia em um bloco de recursos. Esse recurso ajuda a sincronizar upgrades para que suas cargas de trabalho sejam mais resilientes a eventos de host e minimizem as interrupções. Essa abordagem ajuda a melhorar o goodput da sua carga de trabalho.

Para facilitar o controle total dos eventos de manutenção, use os seguintes recursos:

Tipo de programação de manutenção
Gerenciar eventos de host

Tipo de programação de manutenção

Ao reservar capacidade para criar instâncias de computação ou clusters de máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs), é possível definir como o Compute Engine mantém a infraestrutura em que as instâncias são executadas. Com base no tipo de máquina que você quer usar para suas instâncias, é possível escolher entre manutenção sincronizada em todas as instâncias (agrupadas) ou diferentes programações de manutenção (independentes).

Para mais informações, consulte Tipos de programação de manutenção.

Gerenciar eventos do organizador

Depois de criar instâncias A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs) e iniciar sua carga de trabalho, é possível configurar alertas e receber notificações quando a manutenção das instâncias ou dos blocos reservados for programada, iniciada ou concluída. Também é possível ver e, se necessário, iniciar manualmente a manutenção em uma instância ou bloco reservado antes do horário programado. Essas opções ajudam você a controlar e minimizar proativamente os tempos de inatividade das suas cargas de trabalho.

Para ver mais informações, consulte os seguintes tópicos:

Ferramentas de monitoramento e diagnóstico de clusters

Para monitoramento e solução de problemas, as máquinas A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs) incluem os seguintes serviços:

Previsão de degradação da integridade da VM, que ajuda a identificar VMs que provavelmente vão se degradar nas próximas cinco horas.
Relatório de host com falha, que pode ser usado para sinalizar problemas com máquinas host individuais.
Suporte para métricas do Cloud Monitoring, que ajudam a monitorar o desempenho de redes e GPUs.