Inicia manualmente un evento de mantenimiento del host
En esta página, se explica cómo iniciar manualmente un evento de mantenimiento del host en las VMs de TPU compatibles. Esto es útil para cargas de trabajo que podrían verse afectadas por una disminución del rendimiento o un tiempo de inactividad, para las que necesitas que el período de mantenimiento comience a una hora específica.
Cuando inicias manualmente un evento de mantenimiento, el evento de mantenimiento del host comienza de inmediato. No puedes especificar una fecha ni una hora para que comience el evento de mantenimiento. Si no usas esta función, el evento de mantenimiento se producirá a la hora indicada en la notificación de mantenimiento próximo.
Para obtener información sobre cómo iniciar manualmente el mantenimiento de las TPU en GKE, consulta Administra la interrupción de nodos de GKE para GPU y TPU.
Limitaciones
Solo puedes iniciar manualmente un evento de mantenimiento del host para las VMs de TPU con las siguientes configuraciones:
- Cualquier VM de TPU v4 o v5p
- VMs de TPU v5e o v6e con la configuración de topología
2x4
(por ejemplo,v6e-8
si se usa el campo de tipo de acelerador en la API de Cloud TPU) o más grandes - Grupos de nodos de varios hosts de GKE v5e o v6e con VMs de TPU que son
2x4
o más grandes
Iniciar el mantenimiento del host de inmediato para segmentos más grandes podría provocar que el segmento no esté disponible durante algunas horas. Por lo general, un evento de mantenimiento del host hace que se reprograme la porción lo antes posible en otro conjunto de hosts aptos, pero para las solicitudes de eventos de mantenimiento del host más grandes, es posible que no haya capacidad suficiente para reprogramar la porción de inmediato, lo que genera un tiempo de espera más largo.
Además, iniciar el mantenimiento en la porción de Cloud TPU también iniciará el mantenimiento de todas las VMs de TPU subyacentes. Si realizas el mantenimiento directamente en una de las instancias con la API de Instances, todas las instancias dentro de la porción de Cloud TPU entrarán en mantenimiento. En su lugar, usa la API de Cloud TPU queued-resources
para especificar en qué nodos se debe realizar el mantenimiento.
Inicia manualmente un evento de mantenimiento del host
Puedes usar las notificaciones de mantenimiento para determinar cuándo puedes iniciar manualmente un evento de mantenimiento en una TPU.
Verifica la información de la notificación
Puedes encontrar notificaciones sobre los próximos eventos de mantenimiento con la API de Cloud TPU o consultando el servidor de metadatos en tu VM. Para obtener más información, consulta Cómo ver las notificaciones de mantenimiento.
Puedes iniciar un evento de mantenimiento antes de tiempo cuando haya una notificación de mantenimiento del host próxima en la TPU. Para iniciar el evento de mantenimiento antes de tiempo, la próxima notificación de mantenimiento del host debe tener canReschedule
establecido en true
y maintenanceStatus
establecido en PENDING
.
Inicia el evento de mantenimiento
Para iniciar un evento de mantenimiento del host, puedes usar la API de Cloud TPU con el comando perform-maintenance
:
gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \ --zone=ZONE
Cuando se completa la operación, los campos windowEndTime
y windowStartTime
cambian a la hora en la que iniciaste el evento de mantenimiento, y el campo maintenanceStatus
cambia a ONGOING
. El evento de mantenimiento del host comienza poco después.
Usa el comando gcloud alpha compute tpus tpu-vm describe
para ver el estado del evento de mantenimiento:
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
El resultado contiene una sección similar a la siguiente:
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: ONGOING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
El mantenimiento se completa cuando el estado de la VM de TPU es READY
y el resultado del comando gcloud alpha compute tpus tpu-vm describe
ya no contiene un campo de metadatos upcomingMaintenance
.
En los entornos de Multislice, puedes iniciar manualmente un evento de mantenimiento del host en segmentos específicos con el siguiente comando:
gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \ --zone=ZONE --node-names=NODE_NAMES
NODE_NAMES
es una lista separada por comas de las porciones (nodos) del recurso en cola para las que deseas iniciar un evento de mantenimiento del host. Por ejemplo, si el recurso en cola tiene nodos llamados my-qr-0, my-qr-1
y my-qr-2
, una entrada válida para el comando perform-maintenance
sería --node-names=my-qr-0,my-qr-1
.