Memecahkan masalah Collective Communication Analyzer (CoMMA)

Halaman ini menunjukkan cara menyelesaikan masalah umum yang mungkin Anda alami saat menggunakan Collective Communication Analyzer (CoMMA). CoMMA adalah library yang mengumpulkan data telemetri untuk layanan Google Cloud . Untuk mengetahui informasi selengkapnya, lihat Collective Communication Analyzer (CoMMA).

Memecahkan masalah pemuatan CoMMA

CoMMA mungkin tidak dimuat dengan benar. Untuk memverifikasi bahwa biner dimuat dengan benar, selesaikan langkah-langkah berikut:

  1. Aktifkan logging debug NCCL. Untuk mengaktifkan logging, tetapkan variabel lingkungan NCCL_DEBUG=INFO. Anda juga dapat menggunakan tingkat debug yang lebih mendetail. Untuk mengetahui opsi, lihat bagian NCCL_DEBUG dalam dokumentasi NVIDIA.
  2. Tentukan subsistem INIT untuk proses debug. Untuk menentukan INIT, tetapkan NCCL_DEBUG_SUBSYS=INIT. Anda juga dapat menambahkan subsistem lain. Untuk opsi subsistem lainnya, lihat bagian NCCL_DEBUG_SUBSYS.
  3. Cari baris dalam log NCCL yang mirip dengan berikut ini: NCCL INFO PROFILER/Plugin: Plugin name set by env to PATH_TO_PROFILER_PLUGIN

    Jika variabel lingkungan NCCL_PROFILER_PLUGIN tidak disetel, NCCL mungkin mencoba memuat biner libnccl-profiler.so dari jalur yang ditentukan dalam variabel lingkungan LD_LIBRARY_PATH.

Untuk mengatasi masalah ini, pertimbangkan solusi berikut:

  • Pastikan library bersama plugin (libnccl-profiler.so) diberi nama dengan benar.

    Pastikan file tersebut berada di direktori yang ditentukan dalam variabel lingkungan LD_LIBRARY_PATH. Atau, pastikan variabel lingkungan NCCL_PROFILER_PLUGIN menunjuk langsung ke lokasi biner libnccl-profiler.so.

  • Pastikan versi NCCL Anda adalah 2.23 atau yang lebih baru, karena API profiler NCCL memerlukan versi ini.

Memecahkan masalah file output yang tidak ada

Jika Anda mengonfigurasi lingkungan untuk mengirim data yang dikumpulkan oleh CoMMA ke file lokal, tetapi file output tidak ada, periksa log NCCL atau log aplikasi untuk menemukan pesan yang mirip dengan berikut ini:

Failed to open file
Failed to log <telemetry type> to file

Error ini menunjukkan masalah sistem file yang mendasarinya, seperti direktori yang tidak ada atau ruang kosong yang tidak mencukupi. CoMMA berhenti mengekspor telemetri ke file setelah error ini terjadi.

Untuk mengatasi masalah ini, pertimbangkan solusi berikut:

  • Pastikan variabel lingkungan NCCL_PROFILER_LATENCY_FILE atau NCCL_PROFILER_SUMMARY_FILE ditetapkan dengan benar. Berikan template jalur dan nama file yang valid, seperti /tmp/latency-%p.txt.
  • Periksa apakah proses memiliki izin tulis ke direktori output yang ditentukan.
  • Jika Anda mengubah variabel lingkungan NCCL_TELEMETRY_MODE, periksa apakah Anda telah menyetelnya ke nilai yang memungkinkan output file lokal (misalnya, 1 atau 4).

Memecahkan masalah data yang tidak terduga atau peristiwa yang tidak ada

CoMMA dapat merekam data yang tidak terduga atau melewatkan peristiwa yang diharapkan.

Untuk mengatasi masalah ini, pastikan tingkat perincian yang diperlukan telah ditetapkan.