Resolver problemas do Collective Communication Analyzer (CoMMA)

Nesta página, mostramos como resolver problemas comuns que podem ocorrer ao usar o Collective Communication Analyzer (CoMMA). O CoMMA é uma biblioteca que coleta dados de telemetria para serviços do Google Cloud . Para mais informações, consulte Collective Communication Analyzer (CoMMA).

Resolver problemas de carregamento do CoMMA

O CoMMA pode não carregar corretamente. Para verificar se os binários são carregados corretamente, siga estas etapas:

  1. Ative a geração de registros de depuração do NCCL. Para ativar o registro, defina a variável de ambiente NCCL_DEBUG=INFO. Você também pode usar um nível de depuração mais detalhado. Para ver as opções, consulte a seção NCCL_DEBUG na documentação da NVIDIA.
  2. Especifique o subsistema INIT para depuração. Para especificar INIT, defina NCCL_DEBUG_SUBSYS=INIT. Você também pode adicionar outros subsistemas. Para mais opções de subsistema, consulte a seção NCCL_DEBUG_SUBSYS.
  3. Procure uma linha no registro do NCCL semelhante a esta: NCCL INFO PROFILER/Plugin: Plugin name set by env to PATH_TO_PROFILER_PLUGIN

    Se a variável de ambiente NCCL_PROFILER_PLUGIN não estiver definida, o NCCL poderá tentar carregar o binário libnccl-profiler.so do caminho especificado na variável de ambiente LD_LIBRARY_PATH.

Para resolver esse problema, tente as seguintes soluções:

  • Verifique se a biblioteca compartilhada do plug-in (libnccl-profiler.so) está nomeada corretamente.

    Verifique se ele está localizado em um diretório especificado na variável de ambiente LD_LIBRARY_PATH. Como alternativa, verifique se a variável de ambiente NCCL_PROFILER_PLUGIN aponta diretamente para o local do binário libnccl-profiler.so.

  • Verifique se a versão do NCCL é 2.23 ou mais recente, já que a API do criador de perfis do NCCL exige essa versão.

Resolver problemas com arquivos de saída ausentes

Se você configurou seu ambiente para enviar dados coletados pelo CoMMA para um arquivo local, mas o arquivo de saída está faltando, verifique os registros do NCCL ou do aplicativo em busca de mensagens semelhantes a estas:

Failed to open file
Failed to log <telemetry type> to file

Esses erros indicam um problema no sistema de arquivos, como um diretório ausente ou espaço livre insuficiente. O CoMMA para de exportar telemetria para arquivos depois que esses erros ocorrem.

Para resolver esse problema, tente estas soluções:

  • Verifique se as variáveis de ambiente NCCL_PROFILER_LATENCY_FILE ou NCCL_PROFILER_SUMMARY_FILE estão definidas corretamente. Forneça um modelo de caminho e nome de arquivo válido, como /tmp/latency-%p.txt.
  • Verifique se o processo tem permissões de gravação no diretório de saída especificado.
  • Se você modificou a variável de ambiente NCCL_TELEMETRY_MODE, verifique se ela está definida com um valor que permite a saída de arquivos locais (por exemplo, 1 ou 4).

Resolver problemas com dados inesperados ou eventos ausentes

O CoMMA pode capturar dados inesperados ou perder eventos esperados.

Para resolver esse problema, verifique se o nível de granularidade necessário está definido.