이 페이지에서는 Collective Communication Analyzer (CoMMA)를 사용할 때 발생할 수 있는 일반적인 문제를 해결하는 방법을 보여줍니다. CoMMA는 Google Cloud 서비스의 원격 분석 데이터를 수집하는 라이브러리입니다. 자세한 내용은 Collective Communication Analyzer (CoMMA)를 참고하세요.
CoMMA 로드 문제 해결
CoMMA가 제대로 로드되지 않을 수 있습니다. 바이너리가 올바르게 로드되는지 확인하려면 다음 단계를 완료하세요.
- NCCL 디버그 로깅을 사용 설정합니다. 로깅을 사용 설정하려면 환경 변수
NCCL_DEBUG=INFO를 설정합니다. 더 자세한 디버그 수준을 사용할 수도 있습니다. 옵션은 NVIDIA 문서의NCCL_DEBUG섹션을 참고하세요. - 디버깅할
INIT하위 시스템을 지정합니다.INIT를 지정하려면NCCL_DEBUG_SUBSYS=INIT를 설정합니다. 다른 하위 시스템을 추가할 수도 있습니다. 더 많은 하위 시스템 옵션은NCCL_DEBUG_SUBSYS섹션을 참고하세요. NCCL 로그에서 다음과 유사한 줄을 찾습니다.
NCCL INFO PROFILER/Plugin: Plugin name set by env to PATH_TO_PROFILER_PLUGINNCCL_PROFILER_PLUGIN환경 변수가 설정되지 않은 경우 NCCL은LD_LIBRARY_PATH환경 변수에 지정된 경로에서libnccl-profiler.so바이너리를 로드하려고 시도할 수 있습니다.
이 문제를 해결하려면 다음 해결 방법을 고려하세요.
플러그인 공유 라이브러리 (
libnccl-profiler.so)의 이름이 올바른지 확인합니다.LD_LIBRARY_PATH환경 변수에 지정된 디렉터리에 있는지 확인합니다. 또는NCCL_PROFILER_PLUGIN환경 변수가libnccl-profiler.so바이너리의 위치를 직접 가리키는지 확인합니다.NCCL 프로파일러 API에는 이 버전이 필요하므로 NCCL 버전이
2.23이상인지 확인합니다.
누락된 출력 파일 문제 해결
CoMMA에서 수집한 데이터를 로컬 파일로 전송하도록 환경을 구성했는데 출력 파일이 누락된 경우 NCCL 로그 또는 애플리케이션 로그에서 다음과 유사한 메시지를 확인하세요.
Failed to open file Failed to log <telemetry type> to file
이 오류는 디렉터리 누락이나 여유 공간 부족과 같은 기본 파일 시스템 문제를 나타냅니다. 이러한 오류가 발생하면 CoMMA는 원격 분석을 파일로 내보내지 않습니다.
이 문제를 해결하려면 다음 해결 방법을 고려하세요.
NCCL_PROFILER_LATENCY_FILE또는NCCL_PROFILER_SUMMARY_FILE환경 변수가 올바르게 설정되었는지 확인합니다./tmp/latency-%p.txt와 같은 유효한 경로 및 파일 이름 템플릿을 제공합니다.- 프로세스에 지정된 출력 디렉터리에 대한 쓰기 권한이 있는지 확인합니다.
NCCL_TELEMETRY_MODE환경 변수를 수정한 경우 로컬 파일 출력을 사용 설정하는 값 (예:1또는4)으로 설정했는지 확인합니다.
예상치 못한 데이터 또는 누락된 이벤트 문제 해결
CoMMA가 예기치 않은 데이터를 캡처하거나 예상되는 이벤트를 놓칠 수 있습니다.
이 문제를 해결하려면 필요한 세부사항 수준이 설정되어 있는지 확인하세요.