Cette page explique comment résoudre les problèmes courants que vous pouvez rencontrer lorsque vous utilisez l'outil CoMMA (Collective Communication Analyzer). CoMMA est une bibliothèque qui collecte des données de télémétrie pour les services Google Cloud . Pour en savoir plus, consultez Collective Communication Analyzer (CoMMA).
Résoudre les problèmes de chargement de CoMMA
CoMMA ne se chargera peut-être pas correctement. Pour vérifier que les binaires se chargent correctement, procédez comme suit :
- Activez la journalisation des données de débogage NCCL. Pour activer la journalisation, définissez la variable d'environnement
NCCL_DEBUG=INFO. Vous pouvez également utiliser un niveau de débogage plus détaillé. Pour connaître les options, consultez la sectionNCCL_DEBUGde la documentation NVIDIA. - Spécifiez le sous-système
INITpour le débogage. Pour spécifierINIT, définissezNCCL_DEBUG_SUBSYS=INIT. Vous pouvez également ajouter d'autres sous-systèmes. Pour plus d'options de sous-système, consultez la sectionNCCL_DEBUG_SUBSYS. Recherchez une ligne dans le journal NCCL semblable à celle-ci :
NCCL INFO PROFILER/Plugin: Plugin name set by env to PATH_TO_PROFILER_PLUGINSi la variable d'environnement
NCCL_PROFILER_PLUGINn'est pas définie, la NCCL peut tenter de charger le binairelibnccl-profiler.soà partir du chemin d'accès spécifié dans la variable d'environnementLD_LIBRARY_PATH.
Pour résoudre ce problème, essayez les solutions suivantes :
Vérifiez que la bibliothèque partagée du plug-in (
libnccl-profiler.so) est correctement nommée.Vérifiez qu'il se trouve dans un répertoire spécifié dans la variable d'environnement
LD_LIBRARY_PATH. Vous pouvez également vérifier que la variable d'environnementNCCL_PROFILER_PLUGINpointe directement vers l'emplacement du fichier binairelibnccl-profiler.so.Vérifiez que votre version de NCCL est
2.23ou ultérieure, car l'API du profileur NCCL nécessite cette version.
Résoudre les problèmes de fichiers de sortie manquants
Si vous avez configuré votre environnement pour envoyer les données collectées par CoMMA vers un fichier local, mais que le fichier de sortie est manquant, consultez les journaux NCCL ou les journaux d'application pour rechercher des messages semblables à ceux-ci :
Failed to open file Failed to log <telemetry type> to file
Ces erreurs indiquent un problème sous-jacent lié au système de fichiers, comme un répertoire manquant ou un espace libre insuffisant. CoMMA cesse d'exporter la télémétrie vers des fichiers après la survenue de ces erreurs.
Pour résoudre ce problème, essayez les solutions suivantes :
- Vérifiez que les variables d'environnement
NCCL_PROFILER_LATENCY_FILEouNCCL_PROFILER_SUMMARY_FILEsont correctement définies. Indiquez un modèle de chemin d'accès et de nom de fichier valides, tel que/tmp/latency-%p.txt. - Vérifiez que le processus dispose des autorisations d'écriture dans le répertoire de sortie spécifié.
- Si vous avez modifié la variable d'environnement
NCCL_TELEMETRY_MODE, vérifiez que vous l'avez définie sur une valeur qui permet la sortie de fichiers locaux (par exemple,1ou4).
Résoudre les problèmes de données inattendues ou d'événements manquants
CoMMA peut capturer des données inattendues ou manquer des événements attendus.
Pour résoudre ce problème, vérifiez que le niveau de précision requis est défini.