Inicia un evento de mantenimiento del host de forma manual

En esta página, se explica cómo iniciar un evento de mantenimiento del host de forma manual en las VMs de TPU compatibles. Esto es útil para las cargas de trabajo que podrían verse afectadas por una disminución del rendimiento o un tiempo de inactividad, por lo que necesitas que el período de mantenimiento comience a una hora específica.

Cuando inicias un evento de mantenimiento de forma manual, el del host comienza de inmediato. No puedes especificar una fecha ni una hora para que comience el evento de mantenimiento. Si no usas esta función, empezará a la hora indicada en la notificación del próximo mantenimiento.

Para obtener información sobre cómo iniciar el mantenimiento de las TPU en GKE de forma manual, consulta Administra la interrupción de nodos de GKE para GPU y TPU.

Limitaciones

Solo puedes iniciar un evento de mantenimiento del host de forma manual para las VMs de TPU con los siguientes parámetros de configuración:

  • Cualquier VM de TPU v4 o v5p
  • VMs de TPU v5e o v6e con la configuración de topología 2x4 (por ejemplo, v6e-8 si se usa el campo de tipo de acelerador en la API de Cloud TPU), o más grandes
  • Grupos de nodos de varios hosts de GKE v5e o v6e con VMs de TPU que sean 2x4, o más grandes

Si inicias el mantenimiento del host de inmediato para porciones más grandes, es posible que la porción no esté disponible durante algunas horas. Por lo general, un evento de mantenimiento del host hace que se reprograme la porción lo antes posible en otro conjunto de hosts que cumplan con los requisitos. Sin embargo, para las solicitudes de eventos de mantenimiento del host más grandes, es posible que no haya capacidad suficiente para reprogramar la porción de inmediato, lo que genera un tiempo de espera más largo.

Además, iniciar el mantenimiento en la porción de Cloud TPU también iniciará el mantenimiento de todas las VMs de la TPU subyacentes. Si realizas el mantenimiento de forma directa en una de las instancias con la API de Instances, todas las instancias dentro de la porción de Cloud TPU entrarán en mantenimiento. En su lugar, usa la API de Cloud TPU queued-resources para especificar en qué nodos se debe realizar el mantenimiento.

Inicia un evento de mantenimiento del host de forma manual

Puedes usar las notificaciones de mantenimiento para determinar cuándo puedes iniciar un evento de mantenimiento de forma manual en una TPU.

Verifica la información de la notificación

Puedes encontrar notificaciones sobre los próximos eventos de mantenimiento con la API de Cloud TPU o consultando el servidor de metadatos en tu VM. Obtén más información en Consulta las notificaciones de mantenimiento.

Puedes iniciar un evento de mantenimiento antes de tiempo cuando haya una notificación del próximo mantenimiento del host en TPU. Para iniciar el evento de mantenimiento antes de tiempo, la notificación debe tener canReschedule establecido en true, y maintenanceStatus en PENDING.

Inicia el evento de mantenimiento

Para iniciar un evento de mantenimiento del host, puedes usar la API de Cloud TPU con el comando perform-maintenance:

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

Cuando se completa la operación, los campos windowEndTime y windowStartTime cambian a la hora en la que iniciaste el evento de mantenimiento, y el campo maintenanceStatus cambia a ONGOING. El evento de mantenimiento del host comienza poco después.

Usa el comando gcloud alpha compute tpus tpu-vm describe para ver el estado del evento de mantenimiento:

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

El resultado contiene una sección similar a la siguiente:

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

El mantenimiento se completa cuando el estado de la VM de TPU es READY y el resultado del comando gcloud alpha compute tpus tpu-vm describe ya no contiene un campo de metadatos upcomingMaintenance.

En los entornos de Multislice, puedes iniciar de forma manual un evento de mantenimiento del host en porciones específicas con el siguiente comando:

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES es una lista separada por comas de las porciones (nodos) del recurso en cola, para las que quieres iniciar un evento de mantenimiento del host. Por ejemplo, si el recurso en cola tiene nodos llamados my-qr-0, my-qr-1 y my-qr-2, una entrada válida para el comando perform-maintenance sería --node-names=my-qr-0,my-qr-1.

¿Qué sigue?