Este documento aborda como pode minimizar as interrupções nas suas cargas de trabalho da GPU durante um evento de manutenção.
Para saber como monitorizar, planear e realizar a manutenção agendada em instâncias de máquinas virtuais (VMs) com o Cluster Director, consulte o artigo Faça a gestão de eventos de anfitriões em VMs.
Quando o Compute Engine realiza manutenção numa máquina virtual (VM) com unidades de processamento de gráficos (GPUs) anexadas, a VM tem de ser parada. Isto deve-se ao facto de não ser possível migrar em direto VMs com GPUs anexadas.
Tem de definir estas VMs para parar para eventos de manutenção do anfitrião. Pode definir as VMs paradas para serem reiniciadas automaticamente após a conclusão do evento de manutenção.
Normalmente, os eventos de manutenção do anfitrião ocorrem uma vez a cada duas semanas, mas, ocasionalmente, podem ser executados com maior frequência.
Receba um aviso prévio antes de eventos de manutenção
Pode monitorizar o agendamento de manutenção da sua instância de máquina virtual (VM) e preparar as suas cargas de trabalho para a transição através do reinício do sistema.
Para receber um aviso prévio de eventos de anfitriões, monitorize o valor dos metadados /computeMetadata/v1/instance/maintenance-event.
Se o pedido ao servidor de metadados devolver NONE, significa que a VM não está agendada para parar. Por exemplo, execute o seguinte comando a partir de uma VM:
curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"
NONESe o servidor de metadados devolver TERMINATE_ON_HOST_MAINTENANCE, significa que a VM está agendada para paragem. O Compute Engine envia às VMs com GPU um aviso de paragem de 1 hora, enquanto as VMs normais recebem apenas um aviso de 60 segundos.
Use estes avisos para configurar a sua aplicação de modo a fazer a transição através de eventos de manutenção do anfitrião. Por exemplo, consulte a secção Migre os seus dados temporários dos discos SSD locais neste documento.
Migre os seus dados temporários dos discos SSD locais
Devido à persistência de dados do SSD local, os dados em quaisquer discos SSD locais associados a uma VM são irrecuperáveis sempre que o Compute Engine para a VM para eventos de manutenção do anfitrião. Se quiser ajudar a evitar a perda de dados, configure a sua carga de trabalho para migrar dados dos discos SSD locais antes de a VM ser parada. Por exemplo, pode usar uma das seguintes técnicas:
Configure a sua aplicação para mover temporariamente o trabalho em curso para um contentor do Cloud Storage e, em seguida, obtenha esses dados após o reinício da VM.
Escrever dados num disco persistente secundário. Quando a VM é reiniciada automaticamente, o disco persistente pode ser reativado e a sua aplicação pode retomar o trabalho.
O que se segue?
- Saiba mais sobre as plataformas de GPU.
- Para saber como gerir e dimensionar grupos de VMs, consulte o artigo Defina o tamanho-alvo do grupo.
- Para monitorizar o desempenho da GPU, consulte o artigo Monitorize o desempenho da GPU.
- Para melhorar o desempenho da rede, consulte o artigo Use uma largura de banda da rede mais elevada.
- Saiba como resolver problemas de encerramentos e reinícios de VMs.