En este documento, se explica cómo solucionar problemas de rendimiento lento que identificaste en cargas de trabajo que se ejecutan en VMs o clústeres optimizados para IA.
Para aprender a identificar el rendimiento lento, consulta Supervisa instancias de Compute Engine y clústeres de Slurm.
Identifica y aborda cualquier rezagado sospechoso para tu carga de trabajo: Completa los siguientes pasos:
Comprueba si puedes usar la detección de rezagados para tu carga de trabajo. Para revisar las limitaciones y los requisitos para usar la detección de rezagados, consulta Supervisa instancias de Compute Engine y clústeres de Slurm.
Si no puedes usar la detección de rezagados, usa otras opciones para solucionar problemas de rendimiento lento.
Para verificar si alguna VM de tu carga de trabajo se considera rezagada, consulta las métricas de detección de rezagados.
Por ejemplo, para visualizar todos los rezagados sospechosos de tu proyecto en Cloud Monitoring, completa los siguientes pasos:
-
En la consola de Google Cloud , accede a la página Paneles :
Si usas la barra de búsqueda para encontrar esta página, selecciona el resultado cuyo subtítulo es Monitoring.
En la sección Tipo del panel de filtros, haz clic en Servicios de Google.
En la columna Nombre, haz clic en Supervisión del estado de Cluster Director.
Se abrirá la página de detalles del panel.
Usa el selector de intervalo de tiempo en la barra de herramientas para seleccionar el intervalo de tiempo del rendimiento lento. Por lo general, la detección de rezagados tarda hasta 10 minutos en informar sobre un rezagado.
Para verificar si alguna VM de tu carga de trabajo es sospechosa de ser rezagada, revisa la sección Detección de rezagados. Usa esta consulta para ver si la tabla Instancias rezagadas sospechosas incluye alguna VM para tu carga de trabajo.
-
Según la cantidad de VMs de tu carga de trabajo que se sospecha que son rezagadas, haz lo siguiente:
Si ninguna VM se considera rezagada, verifica si la detección de rezagados se ejecuta correctamente. Para verificar si el servicio de detección de rezagados se está ejecutando en tu proyecto, sigue las instrucciones para ver los registros de detección de rezagados y especifica la consulta para todos los registros de detección de rezagados en tu proyecto. Luego, sigue estos pasos:
Si tu proyecto no tiene registros de detección de rezagados mientras las VMs se ejecutan durante al menos 10 minutos, significa que el servicio de detección de rezagados no se está ejecutando para tu proyecto. Para resolver este problema, comunícate con Atención al cliente de Cloud o vuelve a intentarlo más tarde.
De lo contrario, si verificaste que la detección de rezagados se ejecuta en tu proyecto y tu carga de trabajo la admite, es posible que el rendimiento lento se deba a otro problema. Usa otras opciones para solucionar problemas de rendimiento lento.
Si se informa que una pequeña cantidad de VMs en tu carga de trabajo son rezagadas sospechosas, prueba migrar tu carga de trabajo fuera de las VMs sospechosas. Luego, sigue estos pasos:
Si la migración restablece el rendimiento de tu carga de trabajo, es posible que las VMs sospechosas estén defectuosas. Para cada una de estas VMs, sigue los pasos para informar un host defectuoso, establece
FAULT_REASONenPERFORMANCEy estableceDESCRIPTIONenstraggler node.Si la migración no restablece el rendimiento, es posible que haya más VMs rezagadas sospechosas o que el rendimiento lento se deba a otro problema. Puedes verificar si se sospecha que más VMs de tu carga de trabajo son rezagadas o usar otras opciones para solucionar problemas de rendimiento lento.
Si se informa que una gran cantidad de VMs en tu carga de trabajo son rezagadas sospechosas, usa otras opciones para solucionar problemas de rendimiento lento.
Usa otras opciones para solucionar problemas de rendimiento lento: Si la lista informada de VMs rezagadas sospechosas es grande o si quitar las VMs rezagadas informadas no restablece el rendimiento, usa otras opciones para solucionar problemas de rendimiento lento, como las siguientes:
- Probar clústeres con el verificador de estado del clúster
- Revisa otras métricas de rendimiento.
- Revisa otra documentación para solucionar problemas. Por ejemplo, consulta Soluciona problemas de VMs con GPU en la documentación de Compute Engine.