Nesta página, mostramos como resolver problemas comuns que podem ocorrer ao usar o Collective Communication Analyzer (CoMMA). O CoMMA é uma biblioteca que coleta dados de telemetria para serviços do Google Cloud . Para mais informações, consulte Collective Communication Analyzer (CoMMA).
Resolver problemas de carregamento do CoMMA
O CoMMA pode não carregar corretamente. Para verificar se os binários são carregados corretamente, siga estas etapas:
- Ative a geração de registros de depuração do NCCL. Para ativar o registro, defina a variável de ambiente
NCCL_DEBUG=INFO. Você também pode usar um nível de depuração mais detalhado. Para ver as opções, consulte a seçãoNCCL_DEBUGna documentação da NVIDIA. - Especifique o subsistema
INITpara depuração. Para especificarINIT, definaNCCL_DEBUG_SUBSYS=INIT. Você também pode adicionar outros subsistemas. Para mais opções de subsistema, consulte a seçãoNCCL_DEBUG_SUBSYS. Procure uma linha no registro do NCCL semelhante a esta:
NCCL INFO PROFILER/Plugin: Plugin name set by env to PATH_TO_PROFILER_PLUGINSe a variável de ambiente
NCCL_PROFILER_PLUGINnão estiver definida, o NCCL poderá tentar carregar o bináriolibnccl-profiler.sodo caminho especificado na variável de ambienteLD_LIBRARY_PATH.
Para resolver esse problema, tente as seguintes soluções:
Verifique se a biblioteca compartilhada do plug-in (
libnccl-profiler.so) está nomeada corretamente.Verifique se ele está localizado em um diretório especificado na variável de ambiente
LD_LIBRARY_PATH. Como alternativa, verifique se a variável de ambienteNCCL_PROFILER_PLUGINaponta diretamente para o local do bináriolibnccl-profiler.so.Verifique se a versão do NCCL é
2.23ou mais recente, já que a API do criador de perfis do NCCL exige essa versão.
Resolver problemas com arquivos de saída ausentes
Se você configurou seu ambiente para enviar dados coletados pelo CoMMA para um arquivo local, mas o arquivo de saída está faltando, verifique os registros do NCCL ou do aplicativo em busca de mensagens semelhantes a estas:
Failed to open file Failed to log <telemetry type> to file
Esses erros indicam um problema no sistema de arquivos, como um diretório ausente ou espaço livre insuficiente. O CoMMA para de exportar telemetria para arquivos depois que esses erros ocorrem.
Para resolver esse problema, tente estas soluções:
- Verifique se as variáveis de ambiente
NCCL_PROFILER_LATENCY_FILEouNCCL_PROFILER_SUMMARY_FILEestão definidas corretamente. Forneça um modelo de caminho e nome de arquivo válido, como/tmp/latency-%p.txt. - Verifique se o processo tem permissões de gravação no diretório de saída especificado.
- Se você modificou a variável de ambiente
NCCL_TELEMETRY_MODE, verifique se ela está definida com um valor que permite a saída de arquivos locais (por exemplo,1ou4).
Resolver problemas com dados inesperados ou eventos ausentes
O CoMMA pode capturar dados inesperados ou perder eventos esperados.
Para resolver esse problema, verifique se o nível de granularidade necessário está definido.