Resolver problemas de lentidão

Este documento explica como solucionar problemas de desempenho lento identificados em cargas de trabalho executadas em VMs ou clusters otimizados para IA.

Para saber como identificar desempenho lento, consulte Monitorar instâncias do Compute Engine e clusters do Slurm.

  1. Identifique e resolva possíveis problemas de atraso na sua carga de trabalho: conclua as etapas a seguir:

    1. Verifique se é possível usar a detecção de straggler na sua carga de trabalho. Para revisar as limitações e os requisitos do uso da detecção de straggler, consulte Monitorar instâncias do Compute Engine e clusters do Slurm.

      Se não for possível usar a detecção de straggler, use outras opções para resolver problemas de desempenho lento.

    2. Para verificar se alguma VM da sua carga de trabalho é suspeita de ser uma straggler, consulte as métricas de detecção de straggler.

      Por exemplo, para visualizar todos os atrasados suspeitos do seu projeto no Cloud Monitoring, siga estas etapas:

      1. No console Google Cloud , acesse a página  Painéis:

        Acesse Painéis

        Se você usar a barra de pesquisa para encontrar essa página, selecione o resultado com o subtítulo Monitoring.

      2. Na seção Tipo do painel de filtros, clique em Serviços do Google.

      3. Na coluna Nome, clique em Monitoramento da integridade do Cluster Director.

        A página de detalhes do painel é aberta.

      4. Use o seletor de período na barra de ferramentas para selecionar o período de desempenho lento. A detecção de atrasados geralmente leva até 10 minutos para informar um atrasado.

      5. Para verificar se alguma VM da sua carga de trabalho é suspeita de ser uma straggler, consulte a seção Detecção de straggler. Use essa consulta para conferir se a tabela Instâncias suspeitas de straggler lista alguma VM para sua carga de trabalho.

    3. Com base no número de VMs da sua carga de trabalho que são suspeitas de serem lentas, siga estas etapas:

  2. Use outras opções para resolver problemas de desempenho lento: se a lista de VMs lentas suspeitas for grande ou se a remoção delas não restaurar o desempenho, use outras opções para resolver problemas de desempenho lento, como as seguintes: