Processe eventos de manutenção do anfitrião da GPU

Este documento aborda como pode minimizar as interrupções nas suas cargas de trabalho da GPU durante um evento de manutenção.

Para saber como monitorizar, planear e realizar a manutenção agendada em instâncias de máquinas virtuais (VMs) com o Cluster Director, consulte o artigo Faça a gestão de eventos de anfitriões em VMs.

Quando o Compute Engine realiza manutenção numa máquina virtual (VM) com unidades de processamento de gráficos (GPUs) anexadas, a VM tem de ser parada. Isto deve-se ao facto de não ser possível migrar em direto VMs com GPUs anexadas.

Tem de definir estas VMs para parar para eventos de manutenção do anfitrião. Pode definir as VMs paradas para serem reiniciadas automaticamente após a conclusão do evento de manutenção.

Normalmente, os eventos de manutenção do anfitrião ocorrem uma vez a cada duas semanas, mas, ocasionalmente, podem ser executados com maior frequência.

Receba um aviso prévio antes de eventos de manutenção

Pode monitorizar o agendamento de manutenção da sua instância de máquina virtual (VM) e preparar as suas cargas de trabalho para a transição através do reinício do sistema.

Para receber um aviso prévio de eventos de anfitriões, monitorize o valor dos metadados /computeMetadata/v1/instance/maintenance-event. Se o pedido ao servidor de metadados devolver NONE, significa que a VM não está agendada para parar. Por exemplo, execute o seguinte comando a partir de uma VM:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Se o servidor de metadados devolver TERMINATE_ON_HOST_MAINTENANCE, significa que a VM está agendada para paragem. O Compute Engine envia às VMs com GPU um aviso de paragem de 1 hora, enquanto as VMs normais recebem apenas um aviso de 60 segundos.

Use estes avisos para configurar a sua aplicação de modo a fazer a transição através de eventos de manutenção do anfitrião. Por exemplo, consulte a secção Migre os seus dados temporários dos discos SSD locais neste documento.

Migre os seus dados temporários dos discos SSD locais

Devido à persistência de dados do SSD local, os dados em quaisquer discos SSD locais associados a uma VM são irrecuperáveis sempre que o Compute Engine para a VM para eventos de manutenção do anfitrião. Se quiser ajudar a evitar a perda de dados, configure a sua carga de trabalho para migrar dados dos discos SSD locais antes de a VM ser parada. Por exemplo, pode usar uma das seguintes técnicas:

  • Configure a sua aplicação para mover temporariamente o trabalho em curso para um contentor do Cloud Storage e, em seguida, obtenha esses dados após o reinício da VM.

  • Escrever dados num disco persistente secundário. Quando a VM é reiniciada automaticamente, o disco persistente pode ser reativado e a sua aplicação pode retomar o trabalho.

O que se segue?