Auf dieser Seite erfahren Sie, wie Sie häufige Probleme beheben, die bei der Verwendung von CoMMA auftreten können. CoMMA ist eine Bibliothek, die Telemetriedaten für Google Cloud -Dienste erhebt. Weitere Informationen finden Sie unter Collective Communication Analyzer (CoMMA).
Probleme beim Laden von CoMMA beheben
CoMMA wird möglicherweise nicht richtig geladen. Führen Sie die folgenden Schritte aus, um zu prüfen, ob die Binärdateien richtig geladen werden:
- Aktivieren Sie das NCCL-Debug-Logging. Um das Logging zu aktivieren, legen Sie die Umgebungsvariable
NCCL_DEBUG=INFOfest. Sie können auch eine detailliertere Debugging-Stufe verwenden. Informationen zu Optionen finden Sie im AbschnittNCCL_DEBUGin der NVIDIA-Dokumentation. - Geben Sie das
INIT-Subsystem für das Debugging an. Wenn SieINITangeben möchten, legen SieNCCL_DEBUG_SUBSYS=INITfest. Sie können auch andere Subsysteme hinzufügen. Weitere Optionen für Subsysteme finden Sie im AbschnittNCCL_DEBUG_SUBSYS. Suchen Sie im NCCL-Log nach einer Zeile, die in etwa so aussieht:
NCCL INFO PROFILER/Plugin: Plugin name set by env to PATH_TO_PROFILER_PLUGINWenn die Umgebungsvariable
NCCL_PROFILER_PLUGINnicht festgelegt ist, versucht NCCL möglicherweise, das Binärprogrammlibnccl-profiler.soaus dem Pfad zu laden, der in der UmgebungsvariableLD_LIBRARY_PATHangegeben ist.
Versuchen Sie Folgendes, um dieses Problem zu beheben:
Prüfen Sie, ob die Shared Library des Plug-ins (
libnccl-profiler.so) richtig benannt ist.Prüfen Sie, ob sich die Datei in einem Verzeichnis befindet, das in der Umgebungsvariable
LD_LIBRARY_PATHangegeben ist. Alternativ können Sie prüfen, ob die UmgebungsvariableNCCL_PROFILER_PLUGINdirekt auf den Speicherort der Binärdateilibnccl-profiler.soverweist.Prüfen Sie, ob Ihre NCCL-Version
2.23oder höher ist, da die NCCL Profiler API diese Version erfordert.
Fehlerbehebung bei fehlenden Ausgabedateien
Wenn Sie Ihre Umgebung so konfiguriert haben, dass von CoMMA erfasste Daten an eine lokale Datei gesendet werden, die Ausgabedatei jedoch fehlt, suchen Sie in den NCCL- oder Anwendungslogs nach Meldungen, die der folgenden ähneln:
Failed to open file Failed to log <telemetry type> to file
Diese Fehler weisen auf ein zugrunde liegendes Dateisystemproblem hin, z. B. ein fehlendes Verzeichnis oder unzureichenden freien Speicherplatz. Nachdem diese Fehler aufgetreten sind, exportiert CoMMA keine Telemetriedaten mehr in Dateien.
So beheben Sie das Problem:
- Prüfen Sie, ob die Umgebungsvariablen
NCCL_PROFILER_LATENCY_FILEoderNCCL_PROFILER_SUMMARY_FILErichtig festgelegt sind. Geben Sie eine gültige Vorlage für Pfad und Dateinamen an, z. B./tmp/latency-%p.txt. - Prüfen Sie, ob der Prozess Schreibberechtigungen für das angegebene Ausgabeverzeichnis hat.
- Wenn Sie die Umgebungsvariable
NCCL_TELEMETRY_MODEgeändert haben, prüfen Sie, ob Sie sie auf einen Wert gesetzt haben, der die Ausgabe lokaler Dateien ermöglicht (z. B.1oder4).
Fehlerbehebung bei unerwarteten Daten oder fehlenden Ereignissen
CoMMA erfasst möglicherweise unerwartete Daten oder erfasst erwartete Ereignisse nicht.
Prüfen Sie, ob der erforderliche Detaillierungsgrad festgelegt ist, um dieses Problem zu beheben.