Controlar eventos de mantenimiento del host de GPU

En este documento, se analiza cómo puedes minimizar las interrupciones en tus cargas de trabajo de GPU durante un evento de mantenimiento.

Para obtener información sobre cómo supervisar, planificar y realizar el mantenimiento programado en instancias de máquina virtual (VM) con Cluster Director, consulta Administra los eventos del host en todas las VMs.

Cuando Compute Engine realiza el mantenimiento en una máquina virtual (VM) con unidades de procesamiento de gráficos (GPU) conectadas, la VM debe detenerse. Esto se debe a que las VMs con GPU conectadas no se pueden migrar en vivo.

Debes configurar estas VMs para que se detengan durante los eventos de mantenimiento del host. Puedes configurar las VMs que se detuvieron para que se reinicien de forma automática luego de que se complete el evento de mantenimiento.

Los eventos de mantenimiento del host suelen ocurrir una vez cada dos semanas, pero a veces se pueden ejecutar con mayor frecuencia.

Recibe avisos anticipados antes de eventos de mantenimiento

Puedes supervisar el programa de mantenimiento de la instancia de máquina virtual (VM) y preparar la transición de tus cargas de trabajo cuando se reinicia el sistema.

Para recibir una notificación avanzada de los eventos del host, supervisa el valor de metadatos /computeMetadata/v1/instance/maintenance-event. Si la solicitud al servidor de metadatos devuelve NONE, la VM no está programada para detenerse. Por ejemplo, ejecuta el siguiente comando desde una VM:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Si el servidor de metadatos muestra TERMINATE_ON_HOST_MAINTENANCE, entonces tu instancia está programada para detenerse. Compute Engine les da a las VMs de GPU un aviso de 1 hora antes de la detención, mientras que las VMs normales reciben un aviso de apenas 60 segundos.

Usa estos avisos para configurar tu aplicación de modo que haga una transición cuando se produzcan eventos de mantenimiento del host. Por ejemplo, consulta Migra tus datos temporales de los discos SSD locales en este documento.

Migra tus datos temporales de los discos SSD locales

Debido a la persistencia de datos en SSD locales, los datos de los discos SSD locales conectados a una VM son irrecuperables cuando Compute Engine detiene la VM para realizar eventos de mantenimiento del host. Si deseas ayudar a evitar la pérdida de datos, configura tu carga de trabajo para migrar los datos de los discos SSD locales antes de que se detenga la VM. Por ejemplo, puedes usar una de las siguientes técnicas:

  • Configura tu aplicación para que transfiera de forma temporal el trabajo en curso a un bucket de Cloud Storage y recupere esos datos después de que se reinicie la instancia.

  • Escribe datos en un disco persistente secundario. Cuando la instancia se reinicia de forma automática, el disco persistente se puede volver a conectar y tu aplicación puede reanudar el trabajo.

Próximos pasos