排解 Collective Communication Analyzer (CoMMA) 的問題

本頁說明如何解決使用 Collective Communication Analyzer (CoMMA) 時可能遇到的常見問題。CoMMA 是一個程式庫,可收集服務的遙測資料。 Google Cloud 詳情請參閱「集體通訊分析器 (CoMMA)」。

排解 CoMMA 載入問題

CoMMA 可能無法正確載入。 如要確認二進位檔是否正確載入,請完成下列步驟:

  1. 啟用 NCCL 偵錯記錄功能。如要啟用記錄功能,請設定環境變數 NCCL_DEBUG=INFO。您也可以使用更詳細的偵錯層級。 如需相關選項,請參閱 NVIDIA 說明文件中的 NCCL_DEBUG 區段。
  2. 指定要偵錯的 INIT 子系統。如要指定 INIT,請設定 NCCL_DEBUG_SUBSYS=INIT。您也可以新增其他子系統。如需更多子系統選項,請參閱 NCCL_DEBUG_SUBSYS 一節。
  3. 在 NCCL 記錄中尋找類似下列內容的行: NCCL INFO PROFILER/Plugin: Plugin name set by env to PATH_TO_PROFILER_PLUGIN

    如果未設定 NCCL_PROFILER_PLUGIN 環境變數,NCCL 可能會嘗試從 LD_LIBRARY_PATH 環境變數指定的路徑載入 libnccl-profiler.so 二進位檔。

如要解決這個問題,請嘗試下列解決方法:

  • 確認外掛程式共用程式庫 (libnccl-profiler.so) 的名稱正確無誤。

    確認該檔案位於 LD_LIBRARY_PATH 環境變數指定的目錄中。或者,請確認 NCCL_PROFILER_PLUGIN 環境變數直接指向 libnccl-profiler.so 二進位檔的位置。

  • 確認 NCCL 版本為 2.23 以上,因為 NCCL 分析器 API 需要這個版本。

排解缺少輸出檔案的問題

如果您已將環境設定為將 CoMMA 收集的資料傳送至本機檔案,但輸出檔案遺失,請檢查 NCCL 記錄或應用程式記錄,是否有類似下列的訊息:

Failed to open file
Failed to log <telemetry type> to file

這些錯誤表示有潛在的檔案系統問題,例如缺少目錄或可用空間不足。發生這些錯誤後,CoMMA 會停止將遙測資料匯出至檔案。

如要解決這個問題,請嘗試下列解決方案:

  • 確認 NCCL_PROFILER_LATENCY_FILENCCL_PROFILER_SUMMARY_FILE 環境變數設定正確無誤。提供有效的範本路徑和檔案名稱,例如 /tmp/latency-%p.txt
  • 確認程序是否具備指定輸出目錄的寫入權限。
  • 如果您修改了 NCCL_TELEMETRY_MODE 環境變數,請確認您已將其設為可輸出本機檔案的值 (例如 14)。

排解資料不如預期或遺漏事件的問題

CoMMA 可能會擷取非預期的資料,或遺漏預期的事件。

如要解決這個問題,請檢查是否已設定必要精細程度