Inicia un evento de mantenimiento del host de forma manual
En esta página, se explica cómo iniciar un evento de mantenimiento del host de forma manual en las VMs de TPU compatibles. Esto es útil para las cargas de trabajo que podrían verse afectadas por una disminución del rendimiento o un tiempo de inactividad, por lo que necesitas que el período de mantenimiento comience a una hora específica.
Cuando inicias un evento de mantenimiento de forma manual, el del host comienza de inmediato. No puedes especificar una fecha ni una hora para que comience el evento de mantenimiento. Si no usas esta función, empezará a la hora indicada en la notificación del próximo mantenimiento.
Para obtener información sobre cómo iniciar el mantenimiento de las TPU en GKE de forma manual, consulta Administra la interrupción de nodos de GKE para GPU y TPU.
Limitaciones
Solo puedes iniciar un evento de mantenimiento del host de forma manual para las VMs de TPU con los siguientes parámetros de configuración:
- Cualquier VM de TPU v4 o v5p
- VMs de TPU v5e o v6e con la configuración de topología
2x4(por ejemplo,v6e-8si se usa el campo de tipo de acelerador en la API de Cloud TPU), o más grandes - Grupos de nodos de varios hosts de GKE v5e o v6e con VMs de TPU que sean
2x4, o más grandes
Si inicias el mantenimiento del host de inmediato para porciones más grandes, es posible que la porción no esté disponible durante algunas horas. Por lo general, un evento de mantenimiento del host hace que se reprograme la porción lo antes posible en otro conjunto de hosts que cumplan con los requisitos. Sin embargo, para las solicitudes de eventos de mantenimiento del host más grandes, es posible que no haya capacidad suficiente para reprogramar la porción de inmediato, lo que genera un tiempo de espera más largo.
Además, iniciar el mantenimiento en la porción de Cloud TPU también iniciará
el mantenimiento de todas las VMs de la TPU subyacentes. Si realizas el mantenimiento de forma directa en
una de las instancias con la API de
Instances, todas las
instancias dentro de la porción de Cloud TPU entrarán en mantenimiento. En su lugar, usa
la API de Cloud TPU queued-resources para especificar en qué nodos se debe
realizar el mantenimiento.
Inicia un evento de mantenimiento del host de forma manual
Puedes usar las notificaciones de mantenimiento para determinar cuándo puedes iniciar un evento de mantenimiento de forma manual en una TPU.
Verifica la información de la notificación
Puedes encontrar notificaciones sobre los próximos eventos de mantenimiento con la API de Cloud TPU o consultando el servidor de metadatos en tu VM. Obtén más información en Consulta las notificaciones de mantenimiento.
Puedes iniciar un evento de mantenimiento antes de tiempo cuando haya una notificación
del próximo mantenimiento del host en TPU. Para iniciar el evento de mantenimiento
antes de tiempo, la notificación debe tener
canReschedule establecido en true, y maintenanceStatus en PENDING.
Inicia el evento de mantenimiento
Para iniciar un evento de mantenimiento del host, puedes usar la API de Cloud TPU con el
comando perform-maintenance:
gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \ --zone=ZONE
Cuando se completa la operación, los campos windowEndTime y windowStartTime
cambian a la hora en la que iniciaste el evento de mantenimiento, y el
campo maintenanceStatus cambia a ONGOING. El evento de mantenimiento del host
comienza poco después.
Usa el comando gcloud alpha compute tpus tpu-vm describe para ver
el estado del evento de mantenimiento:
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
El resultado contiene una sección similar a la siguiente:
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: ONGOING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
El mantenimiento se completa cuando el estado de la VM de TPU es READY y el resultado del
comando gcloud alpha compute tpus tpu-vm describe ya no contiene un
campo de metadatos upcomingMaintenance.
En los entornos de Multislice, puedes iniciar de forma manual un evento de mantenimiento del host en porciones específicas con el siguiente comando:
gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \ --zone=ZONE --node-names=NODE_NAMES
NODE_NAMES es una lista separada por comas de las porciones (nodos) del recurso en cola,
para las que quieres iniciar un evento de mantenimiento del host. Por ejemplo, si el recurso
en cola tiene nodos llamados my-qr-0, my-qr-1 y my-qr-2, una entrada válida para el
comando perform-maintenance sería --node-names=my-qr-0,my-qr-1.