Gestão de clusters de HPC melhorada com instâncias H4D

As capacidades de gestão de clusters de HPC melhoradas permitem-lhe executar clusters de HPC de grande escala e densamente implementados, e oferecem as seguintes capacidades de gestão de clusters:

Colocação de recursos de infraestrutura de HPC

Quando usa as instâncias H4D com capacidades de gestão melhoradas, pode pedir ao Compute Engine para aprovisionar as suas instâncias o mais próximo possível. Estas máquinas oferecem as seguintes funcionalidades:

  • O Compute Engine aprovisiona as máquinas como blocos de recursos.

  • Escalabilidade da carga de trabalho melhorada através de redes de 200 Gbps com RDMA na nuvem.

Esta disposição de recursos minimiza os saltos de rede e otimiza para a latência de rede mais baixa. Para saber como obter capacidade para implementar blocos de máquinas densamente atribuídos, consulte o artigo Crie um cluster de HPC com capacidades de gestão melhoradas.

Posicionamento com reconhecimento da topologia do cluster

Depois de criar VMs ou clusters de VMs H4D, pode obter informações de topologia ao nível do nó e do cluster. Estas informações ajudam a fazer o seguinte:

  • Ajuste a conceção da aplicação ou da carga de trabalho para minimizar ainda mais a latência da rede.

  • Compreenda e resolva problemas de latência e desempenho da rede para VMs que comunicam frequentemente entre si. Estes problemas podem ocorrer se as VMs estiverem inesperadamente localizadas muito distantes.

Para mais informações, consulte o artigo Veja a topologia das VMs.

Manutenção e recuperação geridas das suas VMs H4D

Quando reserva capacidade para criar VMs ou clusters H4D, Google Cloud o processo de manutenção e recuperação das suas VMs é gerido automaticamente após erros do anfitrião ou relatórios de anfitriões com falhas. Esta abordagem, denominada modo gerido, é ideal quando a sua carga de trabalho requer uma elevada estabilidade e precisa de um processo automatizado para minimizar os tempos de inatividade.

O modo gerido tem as seguintes funcionalidades:

  • Usar apenas capacidade reservada para recuperação: o Compute Engine usa apenas a capacidade reservada para reiniciar VMs. Se não houver capacidade disponível nas suas reservas, o Compute Engine só reinicia as VMs depois de obter mais capacidade.

  • Reinícios automáticos de VMs: Google Cloud processa todo o processo de recuperação de uma VM. Quando é necessária manutenção do anfitrião, o Compute Engine migra automaticamente as suas VMs para outras máquinas disponíveis na sua reserva e reinicia as VMs.

  • Gestão e visibilidade de bloqueios: pode ver a topologia, o estado e o estado de manutenção de reservas individuais e blocos de reservas. Também pode receber notificações de manutenção e, opcionalmente, iniciar a manutenção antes da hora agendada para estes recursos.

  • Potenciais limites de taxa da API: as chamadas para a API report faulty host podem ter limites de taxa por reserva.

Agendamento e controlos de manutenção de clusters

Controla a manutenção das instâncias H4D através da programação com reconhecimento da topologia num bloco de recursos. Esta capacidade ajuda a sincronizar as atualizações para que as suas cargas de trabalho sejam mais resilientes a eventos de anfitrião e minimiza as interrupções.

Para facilitar o controlo total dos eventos de manutenção, pode usar as seguintes funcionalidades:

Tipo de agendamento de manutenção

Quando reserva capacidade para criar VMs ou clusters de instâncias de VM H4D, pode definir como o Compute Engine mantém a infraestrutura na qual as suas VMs são executadas. Pode especificar se as VMs devem ser agrupadas e ter uma programação de manutenção sincronizada (agrupadas) ou se as VMs podem estar fracamente acopladas e ter uma programação de manutenção independente (independentes).

Agendamento de manutenção agrupado

O tipo de agendamento de manutenção agrupado ajuda a garantir que, independentemente do momento em que o Compute Engine aprovisiona uma VM, todas as VMs que executam a mesma carga de trabalho têm a mesma frequência de manutenção planeada. Esta manutenção estreitamente associada permite-lhe otimizar o desempenho do seu trabalho, dando-lhe controlo total sobre a capacidade usada e não usada.

Um tipo de agendamento de manutenção de grupo é útil nos seguintes casos:

  • O seu ambiente usa um programador de tarefas, como o Slurm ou o Google Kubernetes Engine.
  • Quer executar cargas de trabalho de computação altamente paralelizadas.

Programação de manutenção independente

O tipo de programação de manutenção independente atribui às VMs diferentes programações de manutenção. Esta configuração é ideal se tiver cargas de trabalho que são executadas de forma mais eficiente quando as VMs têm programações de manutenção separadas.

Faça a gestão de eventos de anfitriões

Depois de criar VMs H4D e iniciar a sua carga de trabalho, pode configurar alertas e receber notificações quando a manutenção das suas VMs ou blocos reservados for agendada, iniciada ou concluída. Também pode ver e, se necessário, iniciar manualmente a manutenção numa VM ou num bloco reservado antes da hora agendada. Estas opções ajudam a controlar e minimizar proativamente os tempos de inatividade das suas cargas de trabalho.

Para mais informações, consulte o seguinte:

Monitorização de clusters e ferramentas de diagnóstico

Para monitorização e resolução de problemas, as instâncias H4D incluem um serviço de relatórios de anfitriões com falhas, que pode usar para sinalizar problemas com máquinas anfitriãs individuais.

O que se segue?