本頁說明如何解決使用 Collective Communication Analyzer (CoMMA) 時可能遇到的常見問題。CoMMA 是一個程式庫,可收集服務的遙測資料。 Google Cloud 詳情請參閱「集體通訊分析器 (CoMMA)」。
排解 CoMMA 載入問題
CoMMA 可能無法正確載入。 如要確認二進位檔是否正確載入,請完成下列步驟:
- 啟用 NCCL 偵錯記錄功能。如要啟用記錄功能,請設定環境變數
NCCL_DEBUG=INFO。您也可以使用更詳細的偵錯層級。 如需相關選項,請參閱 NVIDIA 說明文件中的NCCL_DEBUG區段。 - 指定要偵錯的
INIT子系統。如要指定INIT,請設定NCCL_DEBUG_SUBSYS=INIT。您也可以新增其他子系統。如需更多子系統選項,請參閱NCCL_DEBUG_SUBSYS一節。 在 NCCL 記錄中尋找類似下列內容的行:
NCCL INFO PROFILER/Plugin: Plugin name set by env to PATH_TO_PROFILER_PLUGIN如果未設定
NCCL_PROFILER_PLUGIN環境變數,NCCL 可能會嘗試從LD_LIBRARY_PATH環境變數指定的路徑載入libnccl-profiler.so二進位檔。
如要解決這個問題,請嘗試下列解決方法:
確認外掛程式共用程式庫 (
libnccl-profiler.so) 的名稱正確無誤。確認該檔案位於
LD_LIBRARY_PATH環境變數指定的目錄中。或者,請確認NCCL_PROFILER_PLUGIN環境變數直接指向libnccl-profiler.so二進位檔的位置。確認 NCCL 版本為
2.23以上,因為 NCCL 分析器 API 需要這個版本。
排解缺少輸出檔案的問題
如果您已將環境設定為將 CoMMA 收集的資料傳送至本機檔案,但輸出檔案遺失,請檢查 NCCL 記錄或應用程式記錄,是否有類似下列的訊息:
Failed to open file Failed to log <telemetry type> to file
這些錯誤表示有潛在的檔案系統問題,例如缺少目錄或可用空間不足。發生這些錯誤後,CoMMA 會停止將遙測資料匯出至檔案。
如要解決這個問題,請嘗試下列解決方案:
- 確認
NCCL_PROFILER_LATENCY_FILE或NCCL_PROFILER_SUMMARY_FILE環境變數設定正確無誤。提供有效的範本路徑和檔案名稱,例如/tmp/latency-%p.txt。 - 確認程序是否具備指定輸出目錄的寫入權限。
- 如果您修改了
NCCL_TELEMETRY_MODE環境變數,請確認您已將其設為可輸出本機檔案的值 (例如1或4)。
排解資料不如預期或遺漏事件的問題
CoMMA 可能會擷取非預期的資料,或遺漏預期的事件。
如要解決這個問題,請檢查是否已設定必要精細程度。