Questa pagina mostra come risolvere i problemi comuni che potresti riscontrare quando utilizzi Collective Communication Analyzer (CoMMA). CoMMA è una libreria che raccoglie dati di telemetria per i Google Cloud servizi. Per saperne di più, consulta Collective Communication Analyzer (CoMMA).
Risolvere i problemi di caricamento di CoMMA
CoMMA potrebbe non caricarsi correttamente. Per verificare che i file binari vengano caricati correttamente:
- Attiva il logging di debug NCCL. Per attivare la registrazione, imposta la variabile di ambiente
NCCL_DEBUG=INFO. Puoi anche utilizzare un livello di debug più dettagliato. Per le opzioni, consulta la sezioneNCCL_DEBUGdella documentazione NVIDIA. - Specifica il sottosistema
INITper il debug. Per specificareINIT, impostaNCCL_DEBUG_SUBSYS=INIT. Puoi anche aggiungere altri sottosistemi. Per altre opzioni del sottosistema, vedi la sezioneNCCL_DEBUG_SUBSYS. Cerca una riga nel log NCCL simile alla seguente:
NCCL INFO PROFILER/Plugin: Plugin name set by env to PATH_TO_PROFILER_PLUGINSe la variabile di ambiente
NCCL_PROFILER_PLUGINnon è impostata, NCCL potrebbe tentare di caricare il binariolibnccl-profiler.sodal percorso specificato nella variabile di ambienteLD_LIBRARY_PATH.
Per risolvere il problema, prova le seguenti soluzioni:
Verifica che la libreria condivisa del plug-in (
libnccl-profiler.so) sia denominata correttamente.Verifica che si trovi in una directory specificata nella variabile di ambiente
LD_LIBRARY_PATH. In alternativa, verifica che la variabile di ambienteNCCL_PROFILER_PLUGINpunti direttamente alla posizione del file binariolibnccl-profiler.so.Verifica che la versione di NCCL sia
2.23o successiva, poiché l'API NCCL profiler richiede questa versione.
Risolvere i problemi relativi ai file di output mancanti
Se hai configurato il tuo ambiente per inviare i dati raccolti da CoMMA a un file locale, ma il file di output non è presente, controlla i log NCCL o i log dell'applicazione per i messaggi simili al seguente:
Failed to open file Failed to log <telemetry type> to file
Questi errori indicano un problema sottostante del file system, ad esempio una directory mancante o spazio libero insufficiente. CoMMA smette di esportare la telemetria nei file dopo che si verificano questi errori.
Per risolvere il problema, prova queste soluzioni:
- Controlla che le variabili di ambiente
NCCL_PROFILER_LATENCY_FILEoNCCL_PROFILER_SUMMARY_FILEsiano impostate correttamente. Fornisci un modello valido di percorso e nome file, ad esempio/tmp/latency-%p.txt. - Verifica che il processo disponga delle autorizzazioni di scrittura per la directory di output specificata.
- Se hai modificato la variabile di ambiente
NCCL_TELEMETRY_MODE, verifica di averla impostata su un valore che consenta l'output del file locale (ad esempio1o4).
Risolvere i problemi relativi a dati imprevisti o eventi mancanti
CoMMA potrebbe acquisire dati imprevisti o non registrare gli eventi previsti.
Per risolvere il problema, verifica che sia impostato il livello di granularità richiesto.