Este documento explica como solucionar problemas de desempenho lento identificados em cargas de trabalho executadas em VMs ou clusters otimizados para IA.
Para saber como identificar desempenho lento, consulte Monitorar instâncias do Compute Engine e clusters do Slurm.
Identifique e resolva possíveis problemas de atraso na sua carga de trabalho: conclua as etapas a seguir:
Verifique se é possível usar a detecção de straggler na sua carga de trabalho. Para revisar as limitações e os requisitos do uso da detecção de straggler, consulte Monitorar instâncias do Compute Engine e clusters do Slurm.
Se não for possível usar a detecção de straggler, use outras opções para resolver problemas de desempenho lento.
Para verificar se alguma VM da sua carga de trabalho é suspeita de ser uma straggler, consulte as métricas de detecção de straggler.
Por exemplo, para visualizar todos os atrasados suspeitos do seu projeto no Cloud Monitoring, siga estas etapas:
-
No console Google Cloud , acesse a página Painéis:
Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.
Na seção Tipo do painel de filtros, clique em Serviços do Google.
Na coluna Nome, clique em Monitoramento da integridade do Cluster Director.
A página de detalhes do painel é aberta.
Use o seletor de período na barra de ferramentas para selecionar o período de desempenho lento. A detecção de atrasados geralmente leva até 10 minutos para informar um atrasado.
Para verificar se alguma VM da sua carga de trabalho é suspeita de ser uma straggler, consulte a seção Detecção de straggler. Use essa consulta para conferir se a tabela Instâncias suspeitas de straggler lista alguma VM para sua carga de trabalho.
-
Com base no número de VMs da sua carga de trabalho que são suspeitas de serem lentas, siga estas etapas:
Se nenhuma VM for suspeita de ser uma straggler, verifique se a detecção de straggler está funcionando corretamente. Para verificar se o serviço de detecção de outliers está sendo executado no seu projeto, siga as instruções para ver os registros de detecção de outliers e especifique a consulta de todos os registros de detecção de outliers no seu projeto. Em seguida, faça o seguinte:
Se o projeto não tiver registros de detecção de atrasos enquanto as VMs estiverem em execução por pelo menos 10 minutos, o serviço de detecção de atrasos não estará em execução para seu projeto. Para resolver isso, entre em contato com o Cloud Customer Care ou tente de novo mais tarde.
Caso contrário, se você verificou que a detecção de retardatários está sendo executada no seu projeto e que sua carga de trabalho é compatível com ela, o desempenho lento pode ser causado por um problema diferente. Use outras opções para resolver problemas de desempenho lento.
Se um pequeno número de VMs na sua carga de trabalho for relatado como suspeito de atraso, teste a migração da carga de trabalho das VMs suspeitas. Em seguida, faça o seguinte:
Se a migração restaurar o desempenho da sua carga de trabalho, as VMs suspeitas poderão estar com falha. Para cada uma dessas VMs, siga as etapas para informar um host com falha, defina
FAULT_REASONcomoPERFORMANCEeDESCRIPTIONcomostraggler node.Se a migração não restaurar a performance, talvez haja mais VMs lentas suspeitas ou o desempenho lento pode ser causado por um problema diferente. Você pode verificar se mais VMs da sua carga de trabalho são suspeitas de serem lentas ou usar outras opções para resolver problemas de desempenho lento.
Se um grande número de VMs na sua carga de trabalho for relatado como suspeito de atraso, use outras opções para resolver problemas de desempenho lento.
Use outras opções para resolver problemas de desempenho lento: se a lista de VMs lentas suspeitas for grande ou se a remoção delas não restaurar o desempenho, use outras opções para resolver problemas de desempenho lento, como as seguintes:
- Testar clusters usando o scanner de integridade do cluster.
- Analise outras métricas de performance.
- Consulte outras documentações de solução de problemas. Por exemplo, consulte Solução de problemas de VMs de GPU na documentação do Compute Engine.