Este documento descreve o Collective Communication Analyzer (CoMMA), uma biblioteca para coletar telemetria do NCCL para Google Cloud serviços. A telemetria do NCCL coleta métricas de desempenho e eventos operacionais que o NCCL gera durante a execução. A NVIDIA Collective Communication Library (NCCL) acelera a comunicação de alto desempenho entre GPUs em sistemas de computação paralela e distribuída. Essa comunicação de alto desempenho é especialmente útil para aprendizado profundo e computação de alto desempenho (HPC).
Para as versões 2.23 e mais recentes do NCCL, a NVIDIA introduziu a API de plug-in do profiler do NCCL, que permite que os desenvolvedores registrem callbacks de função para coletar telemetria durante as operações coletivas do NCCL. O Google oferece o Collective Communication Analyzer (CoMMA), que é uma biblioteca que usa a API de plug-in do profiler do NCCL da NVIDIA para coletar telemetria do NCCL para Google Cloud serviços. O CoMMA é instalado e ativado automaticamente para algumas imagens, mas também é possível desativar, reativar ou instalar e ativar manualmente o CoMMA para controlar a coleta de dados.
Imagens com o CoMMA ativado
Para os tipos de máquina A4X Max, A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs), o CoMMA é instalado e ativado automaticamente quando você usa qualquer imagem que empacote o plug-in do pacote de infraestrutura do Google (gIB) do NCCL. As imagens a seguir contêm o plug-in gIB do NCCL:
- Imagens de nó do Container-Optimized OS com containerd (cos_containerd): o Google Kubernetes Engine (GKE) usa essas imagens para criar clusters do GKE Autopilot. Os binários do CoMMA estão disponíveis no diretório
/home/kubernetes/bin/gib. - Imagens de contêiner da camada de software de aprendizado profundo: use essas imagens para implantar e configurar frameworks de IA e ML e bibliotecas em clusters do GKE.
Se você usa alguma das imagens e quer desativar a coleta de telemetria do NCCL pelo CoMMA, consulte Desativar o CoMMA. No entanto, o CoMMA precisa estar ativado para que recursos como a detecção de atrasados funcionem. Se você não usa essas imagens e quer ativar o CoMMA para coletar telemetria do NCCL, consulte Instalar o CoMMA.
Benefícios
A telemetria do NCCL coletada pelo CoMMA ajuda a identificar gargalos de desempenho, especificamente atrasados, na comunicação da GPU. O CoMMA coleta dados detalhados, como histogramas de latência para operações de comunicação coletiva. Um serviço de diagnóstico pode processar e usar esses dados para identificar atrasados.
O uso do CoMMA para coletar telemetria oferece os seguintes benefícios:
Necessário para a detecção de atrasados: o CoMMA coleta a telemetria detalhada do NCCL para identificar gargalos de desempenho ou atrasados na comunicação de GPU para GPU. O CoMMA fornece telemetria detalhada do NCCL que ajuda a identificar e resolver problemas em cargas de trabalho de treinamento de IA e ML em grande escala.
Por exemplo, o CoMMA captura o algoritmo usado nas operações do NCCL. Essas informações são valiosas para análise e ajuste de desempenho, porque algoritmos diferentes podem ter características de desempenho significativamente diferentes com base na carga de trabalho e na configuração do sistema.
O CoMMA também ajuda na solução de problemas de desempenho e erros abaixo do ideal. Ele rastreia erros originados em camadas de transporte de nível inferior, como TCP, RDMA ou estruturas de switch, de volta a coletivos específicos do NCCL e nós de inicialização.
Rastreamento de baixa sobrecarga: o CoMMA usa recursos computacionais mínimos durante a coleta ativa de telemetria do NCCL, o que o torna ideal para cargas de trabalho de machine learning sensíveis ao desempenho e de longa duração, como o treinamento de modelos de linguagem grandes (LLMs) .
Ampliar o escopo da telemetria do NCCL: o CoMMA usa a API de plug-in do profiler do NCCL. Essa API coleta um escopo mais amplo de telemetria do NCCL em comparação com plug-ins baseados em transporte. Os plug-ins baseados em transporte coletam principalmente telemetria sobre o transporte de rede subjacente, incluindo transferências de dados em hardware e protocolos de rede. O plug-in do profiler coleta telemetria para as operações de comunicação do NCCL, incluindo o tempo de comunicações coletivas, operações de proxy e transferências de dados.
Entender como o CoMMA funciona
Durante o tempo de execução do aplicativo, o NCCL carrega automaticamente as bibliotecas do CoMMA instaladas no local especificado pela variável de ambiente LD_LIBRARY_PATH. Em seguida, o CoMMA coleta a telemetria do NCCL, que outros serviços do Google podem usar. Também é possível exportar esses dados para o sistema de arquivos local.
A seguir
- Saiba como ativar, desativar e configurar o CoMMA.
- Saiba como resolver problemas com o CoMMA.
- Saiba como detectar e resolver atrasados.