Gérer les événements de maintenance de l'hôte GPU

Lorsque Compute Engine effectue une maintenance sur une machine virtuelle (VM) avec des processeurs graphiques (GPU) associés, cette VM doit être arrêtée. En effet, les VM auxquelles sont associés des GPU ne peuvent pas faire l'objet d'une migration à chaud.

Vous devez configurer ces VM pour qu'elles s'arrêtent en cas d'événements de maintenance de l'hôte. Vous pouvez paramétrer vos VM arrêtées pour qu'elles redémarrent automatiquement une fois l'événement de maintenance terminé.

Les événements de maintenance de l'hôte se produisent généralement une fois toutes les deux semaines, mais peuvent parfois être exécutés plus souvent.

Ce document explique comment minimiser les perturbations de vos charges de travail lors d'un événement de maintenance.

Recevoir un avis préalable avant un événement de maintenance

Vous pouvez surveiller le programme de maintenance de votre instance de machine virtuelle (VM) et préparer vos charges de travail en vue du redémarrage du système.

Pour recevoir des avis préalables concernant les événements d'hôte, surveillez la valeur de métadonnées /computeMetadata/v1/instance/maintenance-event. Si la requête adressée au serveur de métadonnées renvoie NONE, la VM n'est pas programmée pour s'arrêter. Exécutez par exemple la commande suivante à partir d'une VM :

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Si le serveur de métadonnées renvoie TERMINATE_ON_HOST_MAINTENANCE, l'instance est programmée pour s'arrêter. Compute Engine donne aux VM avec GPU un préavis d'arrêt d'une heure, tandis que les VM normales ne reçoivent qu'un préavis de 60 secondes. Configurez votre application pour traverser l'événement de maintenance. Par exemple, vous pouvez utiliser l'une des techniques suivantes :

  • Configurez votre application pour déplacer temporairement les tâches en cours vers un bucket Cloud Storage, puis récupérer ces données après le redémarrage de la VM.

  • Écrivez les données sur un disque persistant secondaire. Lorsque la VM redémarre automatiquement, le disque persistant peut être associé à nouveau, et votre application peut reprendre son travail.

Étapes suivantes