Os recursos aprimorados de gerenciamento de clusters de HPC permitem executar clusters de HPC em grande escala e densamente implantados, além de oferecer os seguintes recursos de gerenciamento de clusters:
- Colocação de recursos de cluster de HPC
- Posicionamento com reconhecimento da topologia do cluster
- Modo operacional do cluster
- Programação e controles de manutenção do cluster
- Ferramentas de monitoramento e diagnóstico de cluster
Colocação de recursos de infraestrutura de HPC
Ao usar as instâncias H4D com recursos de gerenciamento aprimorados, é possível solicitar que o Compute Engine provisione as instâncias o mais próximo possível umas das outras. Essas máquinas oferecem os seguintes recursos:
O Compute Engine provisiona as máquinas como blocos de recursos.
Melhoria na escalonabilidade da carga de trabalho com rede de 200 Gbps habilitada para Cloud RDMA.
Essa organização de recursos minimiza os saltos de rede e otimiza a menor latência de rede. Para saber como conseguir capacidade para implantar blocos de máquinas alocados de forma densa, consulte Criar um cluster de HPC com recursos de gerenciamento aprimorados.
Posicionamento com reconhecimento da topologia do cluster
Depois de criar VMs ou clusters de VMs H4D, você pode receber informações de topologia nos níveis de nó e cluster. Essas informações ajudam você a:
Ajuste o design do aplicativo ou da carga de trabalho para minimizar ainda mais a latência da rede.
Entenda e resolva problemas de latência e desempenho de rede para VMs que se comunicam com frequência. Esses problemas podem ocorrer se as VMs estiverem localizadas muito distantes umas das outras de forma inesperada.
Para mais informações, consulte Ver topologia de VMs.
Manutenção e recuperação gerenciadas das suas VMs H4D
Quando você reserva capacidade para criar VMs ou clusters H4D,o Google Cloud gerencia automaticamente o processo de manutenção e recuperação das VMs após erros de host ou relatórios de host com falha. Essa abordagem, chamada de modo gerenciado, é ideal quando a carga de trabalho exige alta estabilidade e precisa de um processo automatizado para minimizar os tempos de inatividade.
O modo gerenciado tem os seguintes recursos:
Usar apenas a capacidade reservada para recuperação: o Compute Engine usa apenas a capacidade reservada para reiniciar VMs. Se não houver capacidade disponível nas suas reservas, o Compute Engine só vai reiniciar as VMs depois que você conseguir mais capacidade.
Reinicializações automáticas de VM: Google Cloud cuida de todo o processo de recuperação de uma VM. Quando a manutenção do host é necessária, o Compute Engine migra automaticamente as VMs para outras máquinas disponíveis na sua reserva e reinicia as VMs.
Gerenciamento e visibilidade de blocos: é possível conferir a topologia, a integridade e o status de manutenção de reservas individuais e blocos de reserva. Você também pode receber notificações de manutenção e, opcionalmente, iniciar a manutenção antes do horário programado para esses recursos.
Possíveis limitações de taxa da API: as chamadas para a API "report faulty host" podem ser limitadas por taxa por reserva.
Programação e controles de manutenção do cluster
Você controla a manutenção das instâncias H4D usando o agendamento com reconhecimento de topologia em um bloco de recursos. Isso ajuda a sincronizar os upgrades para que suas cargas de trabalho sejam mais resilientes a eventos de host e minimiza as interrupções.
Para facilitar o controle total dos eventos de manutenção, use os seguintes recursos:
Tipo de programação de manutenção
Ao reservar capacidade para criar VMs ou clusters de instâncias de VM H4D, é possível definir como o Compute Engine mantém a infraestrutura em que as VMs são executadas. É possível especificar se as VMs serão agrupadas e terão programação de manutenção sincronizada (agrupadas) ou se as VMs serão pouco acopladas e terão programação de manutenção independente (independente).
Programação de manutenção agrupada
O tipo de programação de manutenção agrupada ajuda a garantir que, não importa quando o Compute Engine provisiona uma VM, todas as VMs que executam a mesma carga de trabalho tenham a mesma frequência de manutenção planejada. Essa manutenção fortemente acoplada permite otimizar o desempenho do job, dando controle total sobre a capacidade usada e não usada.
Um tipo de programação de manutenção de grupo é útil nos seguintes casos:
- Seu ambiente usa um programador de jobs, como o Slurm ou o Google Kubernetes Engine.
- Você quer executar cargas de trabalho de computação altamente paralelizadas.
Programação de manutenção independente
O tipo de programação de manutenção independente atribui às VMs programações de manutenção diferentes. Essa configuração é ideal se você tiver cargas de trabalho que funcionam de maneira mais eficiente quando as VMs têm programações de manutenção separadas.
Gerenciar eventos do organizador
Depois de criar VMs H4D e iniciar sua carga de trabalho, é possível configurar alertas e receber notificações quando a manutenção das VMs ou dos blocos reservados for programada, iniciada ou concluída. Também é possível conferir e, se necessário, iniciar manualmente a manutenção em uma VM ou bloco reservado antes do horário programado. Essas opções ajudam você a controlar e minimizar proativamente os tempos de inatividade das suas cargas de trabalho.
Para ver mais informações, consulte os seguintes tópicos:
Ferramentas de monitoramento e diagnóstico de cluster
Para monitoramento e solução de problemas, as instâncias H4D incluem um serviço de relatório de host com falha, que pode ser usado para sinalizar problemas com máquinas host individuais.
A seguir
Crie um cluster de HPC com recursos aprimorados de gerenciamento de cluster usando um dos seguintes métodos:
Observar e monitorar VMs no cluster do Slurm