Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gestionar eventos de mantenimiento de host de GPU

En este documento se explica cómo puedes minimizar las interrupciones en tus cargas de trabajo de GPU durante un evento de mantenimiento.

Para saber cómo monitorizar, planificar y realizar el mantenimiento programado de instancias de máquina virtual (VM) con Cluster Director, consulta Gestionar eventos de host en VMs.

Cuando Compute Engine realiza mantenimiento en una máquina virtual (VM) con unidades de procesamiento gráfico (GPUs) conectadas, la VM debe detenerse. Esto se debe a que las máquinas virtuales con GPUs conectadas no se pueden migrar en directo.

Debes configurar estas VMs para que se detengan cuando se produzcan eventos de mantenimiento del host. Puedes configurar tus VMs detenidas para que se reinicien automáticamente después de que se complete el evento de mantenimiento.

Los eventos de mantenimiento de los hosts suelen producirse una vez cada dos semanas, pero en ocasiones pueden realizarse con más frecuencia.

Recibir un aviso con antelación antes de los eventos de mantenimiento

Puedes monitorizar la programación del mantenimiento de tu instancia de máquina virtual y preparar tus cargas de trabajo para que pasen por el reinicio del sistema.

Para recibir un aviso previo de los eventos del anfitrión, monitoriza el valor de metadatos /computeMetadata/v1/instance/maintenance-event. Si la solicitud al servidor de metadatos devuelve NONE, significa que la VM no tiene programada ninguna detención. Por ejemplo, ejecuta el siguiente comando desde una máquina virtual:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Si el servidor de metadatos devuelve TERMINATE_ON_HOST_MAINTENANCE, significa que se ha programado la detención de tu VM. Compute Engine avisa con una hora de antelación a las VMs con GPU, mientras que las VMs normales solo reciben un aviso de 60 segundos.

Usa estos avisos para configurar tu aplicación de forma que pueda pasar por los eventos de mantenimiento del host. Por ejemplo, consulta la sección Migrar datos temporales de discos SSD locales de este documento.

Migrar los datos temporales de los discos SSD locales

Debido a la persistencia de los datos de las unidades SSD locales, los datos de los discos SSD locales conectados a una VM no se pueden recuperar cuando Compute Engine detiene la VM por eventos de mantenimiento del host. Si quieres ayudar a evitar la pérdida de datos, configura tu carga de trabajo para que migre los datos de los discos SSD locales antes de que se detenga la VM. Por ejemplo, puede usar una de las siguientes técnicas:

Configura tu aplicación para que mueva temporalmente el trabajo en curso a un segmento de Cloud Storage y, a continuación, recupera esos datos después de reiniciar la VM.
Escribir datos en un disco persistente secundario. Cuando la máquina virtual se reinicie automáticamente, el disco persistente se podrá volver a conectar y tu aplicación podrá seguir funcionando.

Siguientes pasos

Consulta más información sobre las plataformas de GPU.
Para obtener más información sobre cómo gestionar y escalar grupos de VMs, consulta Definir el tamaño objetivo del grupo.
Para monitorizar el rendimiento de la GPU, consulta Monitorizar el rendimiento de la GPU.
Para mejorar el rendimiento de la red, consulta Usar un ancho de banda de red mayor.
Consulta cómo solucionar problemas de apagado y reinicio de máquinas virtuales.