Démarrer manuellement un événement de maintenance de l'hôte

Cette page explique comment démarrer manuellement un événement de maintenance de l'hôte sur les VM TPU compatibles. Cela s'avère utile pour les charges de travail susceptibles de subir une dégradation des performances ou un temps d'arrêt, et pour lesquelles vous avez besoin que l'intervalle de maintenance commence à une heure spécifique.

Lorsque vous démarrez manuellement un événement de maintenance, l'événement de maintenance de l'hôte commence immédiatement. Vous ne pouvez pas spécifier de date ni d'heure de début pour l'événement de maintenance. Si vous n'utilisez pas cette fonctionnalité, l'événement de maintenance se produit à l'heure indiquée dans la notification de maintenance à venir.

Pour savoir comment démarrer manuellement une maintenance pour les TPU dans GKE, consultez Gérer les interruptions des nœuds GKE pour les GPU et les TPU.

Limites

Vous ne pouvez démarrer manuellement un événement de maintenance de l'hôte que pour les VM TPU avec les configurations suivantes :

  • Toutes les VM TPU v4 ou v5p
  • VM TPU v5e ou v6e avec la configuration de topologie 2x4 ou plus (par exemple, v6e-8 si vous utilisez le champ "type d'accélérateur" dans l'API Cloud TPU)
  • Pools de nœuds multi-hôtes GKE v5e ou v6e avec des VM TPU ayant une topologie 2x4 ou plus

Le démarrage immédiat d'une opération de maintenance de l'hôte pour des tranches plus conséquentes peut entraîner une indisponibilité de la tranche pendant quelques heures. En temps normal, un événement de maintenance de l'hôte entraîne la reprogrammation de la tranche dès que possible sur un autre ensemble d'hôtes éligibles. Toutefois, pour les demandes d'événements de maintenance de l'hôte plus importantes, il est possible qu'il n'y ait pas suffisamment de capacité pour reprogrammer immédiatement la tranche, ce qui entraîne un délai d'attente plus long.

De plus, le lancement de la maintenance sur la tranche Cloud TPU déclenchera la maintenance de toutes les VM TPU sous-jacentes. Si vous effectuez une maintenance directement sur l'une des instances à l'aide de l'API Instances, toutes les instances dans la tranche Cloud TPU passeront en mode maintenance. Utilisez plutôt l'API Cloud TPU queued-resources pour spécifier les nœuds sur lesquels la maintenance doit être effectuée.

Démarrer manuellement un événement de maintenance de l'hôte

Vous pouvez utiliser les notifications de maintenance pour déterminer quand vous pouvez démarrer manuellement un événement de maintenance sur un TPU.

Vérifier les informations de notification

Vous pouvez trouver les notifications concernant les événements de maintenance à venir à l'aide de l'API Cloud TPU ou en interrogeant le serveur de métadonnées sur votre VM. Pour en savoir plus, consultez Afficher les notifications de maintenance.

Vous pouvez démarrer un événement de maintenance avant l'heure prévue lorsqu'une notification de maintenance de l'hôte à venir est présente sur le TPU. Pour démarrer l'événement de maintenance avant l'heure prévue, la notification de maintenance de l'hôte à venir doit avoir canReschedule défini sur true et maintenanceStatus défini sur PENDING.

Démarrer l'événement de maintenance

Pour démarrer un événement de maintenance de l'hôte, vous pouvez utiliser l'API Cloud TPU avec la commande perform-maintenance :

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

Une fois l'opération terminée, les champs windowEndTime et windowStartTime sont remplacés par l'heure à laquelle vous avez lancé l'événement de maintenance, et le champ maintenanceStatus est remplacé par ONGOING. L'événement de maintenance de l'hôte commence peu de temps après.

Utilisez la commande gcloud alpha compute tpus tpu-vm describe pour afficher l'état de l'événement de maintenance :

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

Le résultat contient une section semblable à celle-ci :

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

La maintenance est terminée lorsque l'état de la VM TPU est READY et que le résultat de la commande gcloud alpha compute tpus tpu-vm describe ne contient plus de champ de métadonnées upcomingMaintenance.

Pour les environnements Multislice, vous pouvez démarrer manuellement un événement de maintenance de l'hôte sur des tranches spécifiques à l'aide de la commande suivante :

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES est une liste de tranches (nœuds) séparées par des virgules dans la ressource mise en file d'attente, pour lesquelles vous souhaitez démarrer un événement de maintenance de l'hôte. Par exemple, si la ressource en file d'attente comporte des nœuds nommés my-qr-0, my-qr-1 et my-qr-2, une entrée valide pour la commande perform-maintenance serait --node-names=my-qr-0,my-qr-1.

Étapes suivantes