Controlar eventos de mantenimiento del host de GPU

En este documento, se analiza cómo puedes minimizar las interrupciones en tus cargas de trabajo de GPU durante un evento de mantenimiento.

Cuando Compute Engine realiza el mantenimiento en una instancia de Compute Engine con unidades de procesamiento de gráficos (GPU) conectadas, la instancia de procesamiento debe detenerse. Esto se debe a que las instancias de procesamiento con GPU conectadas no se pueden migrar en vivo.

Debes configurar estas instancias de procesamiento para que se detengan durante los eventos de mantenimiento del host. Puedes configurar las instancias de procesamiento detenidas para que se reinicien de forma automática luego de que se complete el evento de mantenimiento.

Los eventos de mantenimiento del host suelen ocurrir una vez cada dos semanas, pero a veces se pueden ejecutar con mayor frecuencia. Las instancias de procesamiento con GPUs conectadas pueden tardar hasta una hora en completarse después de fallas o errores de host.

Recibe avisos anticipados antes de eventos de mantenimiento

Puedes supervisar el programa de mantenimiento de tu instancia de Compute Engine y preparar la transición de tus cargas de trabajo cuando se reinicia el sistema.

Para recibir una notificación avanzada de los eventos del host, supervisa el valor de metadatos /computeMetadata/v1/instance/maintenance-event. Si la solicitud al servidor de metadatos devuelve NONE, la instancia de procesamiento no está programada para detenerse. Por ejemplo, ejecuta el siguiente comando desde una instancia de procesamiento:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Si el servidor de metadatos devuelve TERMINATE_ON_HOST_MAINTENANCE, tu instancia de procesamiento está programada para detenerse. En el caso de las instancias de procesamiento que tienen GPUs conectadas, Compute Engine proporciona este aviso 1 hora antes de que se detenga la instancia de procesamiento.

En el caso de algunas series de máquinas con GPU, como A3, Compute Engine proporciona un aviso de mantenimiento próximo con más de una hora de anticipación a través del atributo de metadatos upcoming-maintenance. Para obtener más información, consulta Supervisa y planifica un evento de mantenimiento del host.

Configura tu aplicación para que haga una transición cuando se produce un evento de mantenimiento. Por ejemplo, puedes usar una de las siguientes técnicas:

Usa estos avisos para configurar tu aplicación de modo que haga una transición cuando se produzcan eventos de mantenimiento del host. Por ejemplo, consulta Migra tus datos temporales de los discos SSD locales en este documento.

Migra tus datos temporales de los discos SSD locales

Debido a la persistencia de datos de SSD locales, los datos de los discos SSD locales conectados a una instancia de procesamiento son irrecuperables cuando Compute Engine detiene la instancia de procesamiento para eventos de mantenimiento del host. Si deseas ayudar a evitar la pérdida de datos, configura tu carga de trabajo para migrar los datos de los discos SSD locales antes de que se detenga la instancia de procesamiento. Por ejemplo, puedes usar una de las siguientes técnicas:

  • Configura tu aplicación para que transfiera de forma temporal el trabajo en curso a un bucket de Cloud Storage y recupere esos datos después de que se reinicie la instancia de procesamiento.

  • Escribe datos en un disco persistente secundario. Cuando la instancia de procesamiento se reinicia automáticamente, el Persistent Disk se puede volver a conectar y tu aplicación puede reanudar el trabajo.

Próximos pasos