Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Administra eventos de mantenimiento para TPU en el modo de capacidad administrada

Las VMs de TPU son instancias de VMs de Compute Engine con hardware de TPU conectado. Las VMs de Compute Engine están sujetas a los eventos de mantenimiento de VM de Compute Engine. Cada TPU está conectada a una VM de Compute Engine, por lo que usar más TPU, por ejemplo, en una porción de TPU, aumenta la probabilidad de que una de tus VMs se encuentre con un evento de mantenimiento.

En este documento, se analizan varios enfoques para gestionar eventos de mantenimiento de trabajos de entrenamiento de larga duración en TPU. Para obtener información sobre cómo manejar los eventos de mantenimiento para las TPU en Google Kubernetes Engine (GKE), consulta Administra la interrupción de nodos de GKE para GPU y TPU.

Consulta las notificaciones del próximo mantenimiento

Puedes supervisar los próximos períodos de mantenimiento de tu instancia para preparar de forma proactiva tus cargas de trabajo y, así, se genere la menor cantidad de interrupciones posible. Para obtener más información, consulta Supervisa y planifica un evento de mantenimiento del host en la documentación de Compute Engine.

Usa puntos de control para una recuperación rápida de los eventos de mantenimiento

Los puntos de control son clave para las recuperaciones cortas de los eventos de mantenimiento y deben guardarse con frecuencia. Te recomendamos que guardes puntos de control aproximadamente cada hora. Si no lo haces con suficiente frecuencia, corres el riesgo de perder mucho progreso del entrenamiento debido a eventos de mantenimiento o alguna otra interrupción.

En general, los puntos de control se refieren a todos los parámetros guardados que se usan para el entrenamiento, como los pesos del modelo. El tiempo que se tarda en guardar un punto de control puede variar de segundos a minutos.

Si bien las TPU suelen recuperarse de forma automática de los eventos de mantenimiento, existen casos extremos en los que el trabajo no se reinicia automáticamente. Cuando esto sucede, debes borrar y volver a crear los recursos de TPU y reiniciar el trabajo de entrenamiento desde un punto de control guardado. Para obtener información sobre cómo detectar fallas de recuperación automática y reponerse de estas, consulta Detecta fallas de TPU y recupérate de estas.

Existen diferentes mecanismos a la hora de guardar y cargar puntos de control para cada framework de AA. En general, los modelos de Cloud TPU compatibles tienen puntos de control integrados. Para obtener más información sobre los puntos de control, consulta la siguiente documentación:

Detecta eventos de mantenimiento

Para detectar si se produjo un evento de mantenimiento en tu TPU y cuándo ocurrió, consulta los registros de auditoría de eventos del sistema en Cloud Logging. Para obtener más información, consulta Consulta los registros de eventos de mantenimiento.

También puedes verificar si hay eventos de mantenimiento próximos con el gcloud compute instances describe comando. Para obtener más información, consulta Supervisa y planifica un evento de mantenimiento del host en la documentación de Compute Engine.

Consulta los registros de eventos de mantenimiento

Puedes ver los registros históricos de los eventos de mantenimiento en tu TPU en los registros de auditoría de eventos del sistema.

En el menú de navegación de la consola de Google Cloud , dirígete a la página Explorador de registros:

Ir al Explorador de registros
Usa la siguiente búsqueda para ver las VMs de TPU que se finalizaron por mantenimiento:

"compute.instances.terminateOnHostMaintenance"

En los resultados, se muestran los registros de cualquier interrupción y reparación de tus trabajadores TPU dentro del período de búsqueda. Los registros incluyen la siguiente información:
- La fecha y hora del evento
- El tipo de evento
- El motivo de la finalización en el campo protoPayload.metadata.terminateReason

Inicia el mantenimiento de forma manual

Puedes iniciar de forma manual un evento de mantenimiento del host pendiente en tu VM de TPU para controlar de forma proactiva el próximo mantenimiento con una interrupción mínima. Para obtener más información, consulta Inicia un evento de mantenimiento del host de forma manual en la documentación de Compute Engine.