Visão geral

Este documento descreve o Collective Communication Analyzer (CoMMA), uma biblioteca para coletar telemetria do NCCL para Google Cloud serviços. A telemetria do NCCL coleta métricas de desempenho e eventos operacionais que o NCCL gera durante a execução. A NVIDIA Collective Communication Library (NCCL) acelera a comunicação de alto desempenho entre GPUs em sistemas de computação paralela e distribuída. Essa comunicação de alto desempenho é especialmente útil para aprendizado profundo e computação de alto desempenho (HPC).

Para as versões 2.23 e mais recentes do NCCL, a NVIDIA introduziu a API de plug-in do profiler do NCCL, que permite que os desenvolvedores registrem callbacks de função para coletar telemetria durante as operações coletivas do NCCL. O Google oferece o Collective Communication Analyzer (CoMMA), que é uma biblioteca que usa a API de plug-in do profiler do NCCL da NVIDIA para coletar telemetria do NCCL para Google Cloud serviços. O CoMMA é instalado e ativado automaticamente para algumas imagens, mas também é possível desativar, reativar ou instalar e ativar manualmente o CoMMA para controlar a coleta de dados.

Imagens com o CoMMA ativado

Para os tipos de máquina A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs), o CoMMA é instalado e ativado automaticamente quando você usa qualquer imagem que empacote o plug-in do pacote de infraestrutura do Google (gIB) do NCCL. As imagens a seguir contêm o plug-in gIB do NCCL:

Se você usa alguma das imagens e quer desativar a coleta de telemetria do NCCL pelo CoMMA, consulte Desativar o CoMMA. No entanto, o CoMMA precisa estar ativado para que recursos como a detecção de atrasados funcionem. Se você não usa essas imagens e quer ativar o CoMMA para coletar telemetria do NCCL, consulte Instalar o CoMMA.

Benefícios

A telemetria do NCCL coletada pelo CoMMA ajuda a identificar gargalos de desempenho, especificamente atrasados, na comunicação da GPU. O CoMMA coleta dados detalhados, como histogramas de latência para operações de comunicação coletiva. Um serviço de diagnóstico pode processar e usar esses dados para identificar atrasados.

O uso do CoMMA para coletar telemetria oferece os seguintes benefícios:

  • Necessário para a detecção de atrasados: o CoMMA coleta a telemetria detalhada do NCCL para identificar gargalos de desempenho ou atrasados na comunicação de GPU para GPU. O CoMMA fornece telemetria detalhada do NCCL que ajuda a identificar e resolver problemas em cargas de trabalho de treinamento de IA e ML em grande escala.

    Por exemplo, o CoMMA captura o algoritmo usado nas operações do NCCL. Essas informações são valiosas para análise e ajuste de desempenho, porque algoritmos diferentes podem ter características de desempenho significativamente diferentes com base na carga de trabalho e na configuração do sistema.

    O CoMMA também ajuda na solução de problemas de desempenho e erros abaixo do ideal. Ele rastreia erros originados em camadas de transporte de nível inferior, como TCP, RDMA ou estruturas de switch, de volta a coletivos específicos do NCCL e nós de inicialização.

  • Rastreamento de baixa sobrecarga: o CoMMA usa recursos computacionais mínimos durante a coleta ativa de telemetria do NCCL, o que o torna ideal para cargas de trabalho de machine learning sensíveis ao desempenho e de longa duração, como o treinamento de modelos de linguagem grandes (LLMs) .

  • Ampliar o escopo da telemetria do NCCL: o CoMMA usa a API de plug-in do profiler do NCCL. Essa API coleta um escopo mais amplo de telemetria do NCCL em comparação com plug-ins baseados em transporte. Os plug-ins baseados em transporte coletam principalmente telemetria sobre o transporte de rede subjacente, incluindo transferências de dados em hardware e protocolos de rede. O plug-in do profiler coleta telemetria para as operações de comunicação do NCCL, incluindo o tempo de comunicações coletivas, operações de proxy e transferências de dados.

Entender como o CoMMA funciona

Durante o tempo de execução do aplicativo, o NCCL carrega automaticamente as bibliotecas do CoMMA instaladas no local especificado pela variável de ambiente LD_LIBRARY_PATH. Em seguida, o CoMMA coleta a telemetria do NCCL, que outros serviços do Google podem usar. Também é possível exportar esses dados para o sistema de arquivos local.

A seguir