Risolvere i problemi di Collective Communication Analyzer (CoMMA)

Questa pagina mostra come risolvere i problemi comuni che potresti riscontrare quando utilizzi Collective Communication Analyzer (CoMMA). CoMMA è una libreria che raccoglie dati di telemetria per i Google Cloud servizi. Per saperne di più, consulta Collective Communication Analyzer (CoMMA).

Risolvere i problemi di caricamento di CoMMA

CoMMA potrebbe non caricarsi correttamente. Per verificare che i file binari vengano caricati correttamente:

  1. Attiva il logging di debug NCCL. Per attivare la registrazione, imposta la variabile di ambiente NCCL_DEBUG=INFO. Puoi anche utilizzare un livello di debug più dettagliato. Per le opzioni, consulta la sezione NCCL_DEBUG della documentazione NVIDIA.
  2. Specifica il sottosistema INIT per il debug. Per specificare INIT, imposta NCCL_DEBUG_SUBSYS=INIT. Puoi anche aggiungere altri sottosistemi. Per altre opzioni del sottosistema, vedi la sezione NCCL_DEBUG_SUBSYS.
  3. Cerca una riga nel log NCCL simile alla seguente: NCCL INFO PROFILER/Plugin: Plugin name set by env to PATH_TO_PROFILER_PLUGIN

    Se la variabile di ambiente NCCL_PROFILER_PLUGIN non è impostata, NCCL potrebbe tentare di caricare il binario libnccl-profiler.so dal percorso specificato nella variabile di ambiente LD_LIBRARY_PATH.

Per risolvere il problema, prova le seguenti soluzioni:

  • Verifica che la libreria condivisa del plug-in (libnccl-profiler.so) sia denominata correttamente.

    Verifica che si trovi in una directory specificata nella variabile di ambiente LD_LIBRARY_PATH. In alternativa, verifica che la variabile di ambiente NCCL_PROFILER_PLUGIN punti direttamente alla posizione del file binario libnccl-profiler.so.

  • Verifica che la versione di NCCL sia 2.23 o successiva, poiché l'API NCCL profiler richiede questa versione.

Risolvere i problemi relativi ai file di output mancanti

Se hai configurato il tuo ambiente per inviare i dati raccolti da CoMMA a un file locale, ma il file di output non è presente, controlla i log NCCL o i log dell'applicazione per i messaggi simili al seguente:

Failed to open file
Failed to log <telemetry type> to file

Questi errori indicano un problema sottostante del file system, ad esempio una directory mancante o spazio libero insufficiente. CoMMA smette di esportare la telemetria nei file dopo che si verificano questi errori.

Per risolvere il problema, prova queste soluzioni:

  • Controlla che le variabili di ambiente NCCL_PROFILER_LATENCY_FILE o NCCL_PROFILER_SUMMARY_FILE siano impostate correttamente. Fornisci un modello valido di percorso e nome file, ad esempio /tmp/latency-%p.txt.
  • Verifica che il processo disponga delle autorizzazioni di scrittura per la directory di output specificata.
  • Se hai modificato la variabile di ambiente NCCL_TELEMETRY_MODE, verifica di averla impostata su un valore che consenta l'output del file locale (ad esempio 1 o 4).

Risolvere i problemi relativi a dati imprevisti o eventi mancanti

CoMMA potrebbe acquisire dati imprevisti o non registrare gli eventi previsti.

Per risolvere il problema, verifica che sia impostato il livello di granularità richiesto.