Halaman ini menunjukkan cara menyelesaikan masalah umum yang mungkin Anda alami saat menggunakan Collective Communication Analyzer (CoMMA). CoMMA adalah library yang mengumpulkan data telemetri untuk layanan Google Cloud . Untuk mengetahui informasi selengkapnya, lihat Collective Communication Analyzer (CoMMA).
Memecahkan masalah pemuatan CoMMA
CoMMA mungkin tidak dimuat dengan benar. Untuk memverifikasi bahwa biner dimuat dengan benar, selesaikan langkah-langkah berikut:
- Aktifkan logging debug NCCL. Untuk mengaktifkan logging, tetapkan variabel lingkungan
NCCL_DEBUG=INFO. Anda juga dapat menggunakan tingkat debug yang lebih mendetail. Untuk mengetahui opsi, lihat bagianNCCL_DEBUGdalam dokumentasi NVIDIA. - Tentukan subsistem
INITuntuk proses debug. Untuk menentukanINIT, tetapkanNCCL_DEBUG_SUBSYS=INIT. Anda juga dapat menambahkan subsistem lain. Untuk opsi subsistem lainnya, lihat bagianNCCL_DEBUG_SUBSYS. Cari baris dalam log NCCL yang mirip dengan berikut ini:
NCCL INFO PROFILER/Plugin: Plugin name set by env to PATH_TO_PROFILER_PLUGINJika variabel lingkungan
NCCL_PROFILER_PLUGINtidak disetel, NCCL mungkin mencoba memuat binerlibnccl-profiler.sodari jalur yang ditentukan dalam variabel lingkunganLD_LIBRARY_PATH.
Untuk mengatasi masalah ini, pertimbangkan solusi berikut:
Pastikan library bersama plugin (
libnccl-profiler.so) diberi nama dengan benar.Pastikan file tersebut berada di direktori yang ditentukan dalam variabel lingkungan
LD_LIBRARY_PATH. Atau, pastikan variabel lingkunganNCCL_PROFILER_PLUGINmenunjuk langsung ke lokasi binerlibnccl-profiler.so.Pastikan versi NCCL Anda adalah
2.23atau yang lebih baru, karena API profiler NCCL memerlukan versi ini.
Memecahkan masalah file output yang tidak ada
Jika Anda mengonfigurasi lingkungan untuk mengirim data yang dikumpulkan oleh CoMMA ke file lokal, tetapi file output tidak ada, periksa log NCCL atau log aplikasi untuk menemukan pesan yang mirip dengan berikut ini:
Failed to open file Failed to log <telemetry type> to file
Error ini menunjukkan masalah sistem file yang mendasarinya, seperti direktori yang tidak ada atau ruang kosong yang tidak mencukupi. CoMMA berhenti mengekspor telemetri ke file setelah error ini terjadi.
Untuk mengatasi masalah ini, pertimbangkan solusi berikut:
- Pastikan variabel lingkungan
NCCL_PROFILER_LATENCY_FILEatauNCCL_PROFILER_SUMMARY_FILEditetapkan dengan benar. Berikan template jalur dan nama file yang valid, seperti/tmp/latency-%p.txt. - Periksa apakah proses memiliki izin tulis ke direktori output yang ditentukan.
- Jika Anda mengubah variabel lingkungan
NCCL_TELEMETRY_MODE, periksa apakah Anda telah menyetelnya ke nilai yang memungkinkan output file lokal (misalnya,1atau4).
Memecahkan masalah data yang tidak terduga atau peristiwa yang tidak ada
CoMMA dapat merekam data yang tidak terduga atau melewatkan peristiwa yang diharapkan.
Untuk mengatasi masalah ini, pastikan tingkat perincian yang diperlukan telah ditetapkan.