Informar y reparar hosts defectuosos con TPUs en el modo Capacidad total

Si detecta problemas en una VM en modo Capacidad total que no puede resolver de otro modo (por ejemplo, métricas de latencia de ICI constantemente altas o una temperatura constantemente alta en comparación con otras VMs), le recomendamos que informe de que su host está defectuoso. Cuando informas de que un host tiene un fallo, Compute Engine lo marca como tal y repara automáticamente la máquina virtual ejecutando el mantenimiento del host. En el modo Toda la capacidad, las VMs de TPU no se migran a otro host durante la reparación. En su lugar, se reiniciarán en el mismo host si hay capacidad suficiente. Solo puedes informar de un host defectuoso que tenga máquinas virtuales en ejecución.

Usa el comando report-host-as-faulty para informar de un host defectuoso. Utiliza el parámetro --fault-behavior para proporcionar información adicional sobre el problema.

gcloud compute instances report-host-as-faulty TPU_NAME \
    --fault-reasons=behavior=FAULT_BEHAVIOR,description=DESCRIPTION \
    --disruption-schedule=DISRUPTION_SCHEDULE

Haz los cambios siguientes:

TPU_NAME: nombre de la VM de TPU.
FAULT_BEHAVIOR: puede enviar uno de los siguientes valores:
- PERFORMANCE: úsala para informar de una degradación del rendimiento en una instancia.
- SILENT_DATA_CORRUPTION: úsalo para informar de cualquier sospecha de corrupción de datos silenciosa en una instancia.
- BEHAVIOR_UNSPECIFIED: úsalo para informar de un problema que no encaje en los otros grupos de comportamientos.
DESCRIPTION: descripción del problema que afecta a tu máquina virtual.
DISRUPTION_SCHEDULE: especifica el momento en el que se inicia el proceso de notificación de errores. El valor predeterminado es IMMEDIATE, que inicia el proceso de inmediato. DISRUPTION_SCHEDULE debe ser una de las siguientes opciones: IMMEDIATE, FUTURE.

El proceso para informar de que un anfitrión no cumple los requisitos suele tardar entre 10 y 12 minutos. Una vez que se haya completado la operación del informe, la reparación del host se iniciará en un minuto si la programación de la interrupción está definida como IMMEDIATE. Si la programación de interrupciones se define como FUTURE, no se tomará ninguna medida de reparación de inmediato. En su lugar, Compute Engine programará una reparación si se detecta algún fallo en el futuro. Una vez que se inicia la reparación, la VM se apagará. La VM puede permanecer en el estado PENDING hasta que se repare el host. La reparación del host defectuoso puede tardar entre 3 y 14 días, o incluso más. En el modo Toda la capacidad de TPU, las VMs de TPU no se migran a otro host durante la reparación. En su lugar, se reiniciarán en el mismo host si hay capacidad suficiente.