Fehlerbehebung beim Collective Communication Analyzer (CoMMA)

Auf dieser Seite erfahren Sie, wie Sie häufige Probleme beheben, die bei der Verwendung von CoMMA auftreten können. CoMMA ist eine Bibliothek, die Telemetriedaten für Google Cloud -Dienste erhebt. Weitere Informationen finden Sie unter Collective Communication Analyzer (CoMMA).

Probleme beim Laden von CoMMA beheben

CoMMA wird möglicherweise nicht richtig geladen. Führen Sie die folgenden Schritte aus, um zu prüfen, ob die Binärdateien richtig geladen werden:

  1. Aktivieren Sie das NCCL-Debug-Logging. Um das Logging zu aktivieren, legen Sie die Umgebungsvariable NCCL_DEBUG=INFO fest. Sie können auch eine detailliertere Debugging-Stufe verwenden. Informationen zu Optionen finden Sie im Abschnitt NCCL_DEBUG in der NVIDIA-Dokumentation.
  2. Geben Sie das INIT-Subsystem für das Debugging an. Wenn Sie INIT angeben möchten, legen Sie NCCL_DEBUG_SUBSYS=INIT fest. Sie können auch andere Subsysteme hinzufügen. Weitere Optionen für Subsysteme finden Sie im Abschnitt NCCL_DEBUG_SUBSYS.
  3. Suchen Sie im NCCL-Log nach einer Zeile, die in etwa so aussieht: NCCL INFO PROFILER/Plugin: Plugin name set by env to PATH_TO_PROFILER_PLUGIN

    Wenn die Umgebungsvariable NCCL_PROFILER_PLUGIN nicht festgelegt ist, versucht NCCL möglicherweise, das Binärprogramm libnccl-profiler.so aus dem Pfad zu laden, der in der Umgebungsvariable LD_LIBRARY_PATH angegeben ist.

Versuchen Sie Folgendes, um dieses Problem zu beheben:

  • Prüfen Sie, ob die Shared Library des Plug-ins (libnccl-profiler.so) richtig benannt ist.

    Prüfen Sie, ob sich die Datei in einem Verzeichnis befindet, das in der Umgebungsvariable LD_LIBRARY_PATH angegeben ist. Alternativ können Sie prüfen, ob die Umgebungsvariable NCCL_PROFILER_PLUGIN direkt auf den Speicherort der Binärdatei libnccl-profiler.so verweist.

  • Prüfen Sie, ob Ihre NCCL-Version 2.23 oder höher ist, da die NCCL Profiler API diese Version erfordert.

Fehlerbehebung bei fehlenden Ausgabedateien

Wenn Sie Ihre Umgebung so konfiguriert haben, dass von CoMMA erfasste Daten an eine lokale Datei gesendet werden, die Ausgabedatei jedoch fehlt, suchen Sie in den NCCL- oder Anwendungslogs nach Meldungen, die der folgenden ähneln:

Failed to open file
Failed to log <telemetry type> to file

Diese Fehler weisen auf ein zugrunde liegendes Dateisystemproblem hin, z. B. ein fehlendes Verzeichnis oder unzureichenden freien Speicherplatz. Nachdem diese Fehler aufgetreten sind, exportiert CoMMA keine Telemetriedaten mehr in Dateien.

So beheben Sie das Problem:

  • Prüfen Sie, ob die Umgebungsvariablen NCCL_PROFILER_LATENCY_FILE oder NCCL_PROFILER_SUMMARY_FILE richtig festgelegt sind. Geben Sie eine gültige Vorlage für Pfad und Dateinamen an, z. B. /tmp/latency-%p.txt.
  • Prüfen Sie, ob der Prozess Schreibberechtigungen für das angegebene Ausgabeverzeichnis hat.
  • Wenn Sie die Umgebungsvariable NCCL_TELEMETRY_MODE geändert haben, prüfen Sie, ob Sie sie auf einen Wert gesetzt haben, der die Ausgabe lokaler Dateien ermöglicht (z. B. 1 oder 4).

Fehlerbehebung bei unerwarteten Daten oder fehlenden Ereignissen

CoMMA erfasst möglicherweise unerwartete Daten oder erfasst erwartete Ereignisse nicht.

Prüfen Sie, ob der erforderliche Detaillierungsgrad festgelegt ist, um dieses Problem zu beheben.