Este documento explica como resolver problemas de desempenho lento identificados em cargas de trabalho executadas em VMs ou clusters otimizados para IA.
Para saber como identificar o desempenho lento, consulte Monitorar instâncias do Compute Engine e clusters do Slurm.
Identificar e resolver possíveis problemas de desempenho lento na carga de trabalho: siga estas etapas:
Verifique se é possível usar a detecção de desempenho lento na carga de trabalho. Para conferir as limitações e os requisitos para usar a detecção de desempenho lento, consulte Monitorar instâncias do Compute Engine e clusters do Slurm.
Se não for possível usar a detecção de desempenho lento, então use outras opções para resolver problemas de desempenho lento.
Para verificar se alguma VM da carga de trabalho tem suspeita de desempenho lento, consulte as métricas de detecção de desempenho lento.
Por exemplo, para visualizar todos os possíveis problemas de desempenho lento do projeto no Cloud Monitoring, siga estas etapas:
-
No Google Cloud console, acesse a página Painéis:
Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.
Na seção Tipo do painel de filtros, clique em Serviços do Google.
Na coluna Nome, clique em Monitoramento de integridade do Cluster Director.
A página de detalhes do painel será aberta.
Use o seletor de período na barra de ferramentas para selecionar o período de desempenho lento. A detecção de desempenho lento normalmente leva até 10 minutos para informar um problema.
Para verificar se alguma VM da carga de trabalho tem suspeita de desempenho lento, consulte a seção Detecção de desempenho lento. Use essa consulta para verificar se a tabela Instâncias com suspeita de desempenho lento lista alguma VM da carga de trabalho.
-
Com base no número de VMs da carga de trabalho que têm suspeita de desempenho lento, siga estas etapas:
Se nenhuma VM tiver suspeita de desempenho lento, verifique se a detecção de desempenho lento está funcionando corretamente. Para verificar se o serviço de detecção de desempenho lento está em execução no projeto, siga as instruções para conferir os registros de detecção de desempenho lento e especifique a consulta para todos os registros de detecção de desempenho lento no projeto. Em seguida, siga estas etapas:
Se o projeto não tiver registros de detecção de desempenho lento enquanto as VMs estiverem em execução por pelo menos 10 minutos, o serviço de detecção de desempenho lento não estará em execução no projeto. Para resolver esse problema, entre em contato com o Cloud Customer Care ou tente novamente mais tarde.
Caso contrário, se você tiver verificado que a detecção de desempenho lento está em execução no projeto e a carga de trabalho oferece suporte à detecção de desempenho lento, o desempenho lento poderá ser causado por um problema diferente. Use outras opções para resolver problemas de desempenho lento.
Se um pequeno número de VMs na carga de trabalho for informado como tendo suspeita de desempenho lento, teste a migração da carga de trabalho das VMs suspeitas. Em seguida, siga estas etapas:
Se a migração restaurar a performance da carga de trabalho, então as VMs suspeitas poderão estar com falha. Para cada uma dessas VMs, siga as etapas para informar um host com falha, e defina
FAULT_REASONcomoPERFORMANCEe definaDESCRIPTIONcomostraggler node.Se a migração não restaurar a performance, poderá haver mais VMs com suspeita de desempenho lento ou o desempenho lento poderá ser causado por um problema diferente. Você pode verificar se mais VMs da carga de trabalho têm suspeita de desempenho lento ou usar outras opções para resolver problemas de desempenho lento.
Se um grande número de VMs na carga de trabalho for informado como tendo suspeita de desempenho lento, então use outras opções para resolver problemas de desempenho lento.
Usar outras opções para resolver problemas de desempenho lento: se a lista informada de VMs com suspeita de desempenho lento for grande ou se a remoção das VMs informadas não restaurar a performance, use outras opções para resolver problemas de desempenho lento, como as seguintes:
- Testar clusters usando o verificador de integridade do cluster.
- Analisar outras métricas de performance.
- Consulte outras documentações de solução de problemas. Por exemplo, consulte Resolver problemas de VMs de GPU na documentação do Compute Engine.