En esta página, se muestra cómo resolver problemas habituales que podrías encontrar cuando uses el Analizador de comunicación colectiva (CoMMA). CoMMA es una biblioteca que recopila datos de telemetría para los servicios de Google Cloud . Para obtener más información, consulta Collective Communication Analyzer (CoMMA).
Soluciona problemas de carga de CoMMA
Es posible que CoMMA no se cargue correctamente. Para verificar que los archivos binarios se carguen correctamente, completa estos pasos:
- Habilita el registro de depuración de NCCL. Para habilitar el registro, establece la variable de entorno
NCCL_DEBUG=INFO. También puedes usar un nivel de depuración más detallado. Para ver las opciones, consulta la secciónNCCL_DEBUGen la documentación de NVIDIA. - Especifica el subsistema
INITpara la depuración. Para especificarINIT, estableceNCCL_DEBUG_SUBSYS=INIT. También puedes agregar otros subsistemas. Para obtener más opciones de subsistemas, consulta la secciónNCCL_DEBUG_SUBSYS. Busca una línea en el registro de NCCL que sea similar a la siguiente:
NCCL INFO PROFILER/Plugin: Plugin name set by env to PATH_TO_PROFILER_PLUGINSi la variable de entorno
NCCL_PROFILER_PLUGINno está configurada, es posible que NCCL intente cargar el objeto binariolibnccl-profiler.sodesde la ruta de acceso especificada en la variable de entornoLD_LIBRARY_PATH.
Para resolver este problema, considera las siguientes soluciones:
Verifica que la biblioteca compartida del complemento (
libnccl-profiler.so) tenga el nombre correcto.Comprueba que se encuentre en un directorio especificado en la variable de entorno
LD_LIBRARY_PATH. Como alternativa, verifica que la variable de entornoNCCL_PROFILER_PLUGINapunte directamente a la ubicación del archivo binariolibnccl-profiler.so.Verifica que tu versión de NCCL sea
2.23o posterior, ya que la API del generador de perfiles de NCCL requiere esta versión.
Soluciona problemas relacionados con la falta de archivos de salida
Si configuraste tu entorno para enviar los datos recopilados por CoMMA a un archivo local, pero falta el archivo de salida, consulta los registros de NCCL o los registros de la aplicación para ver si hay mensajes similares a los siguientes:
Failed to open file Failed to log <telemetry type> to file
Estos errores indican un problema subyacente del sistema de archivos, como un directorio faltante o espacio libre insuficiente. CoMMA deja de exportar datos de telemetría a archivos después de que se producen estos errores.
Para resolver este problema, considera las siguientes soluciones:
- Verifica que las variables de entorno
NCCL_PROFILER_LATENCY_FILEoNCCL_PROFILER_SUMMARY_FILEestén configuradas correctamente. Proporciona una plantilla de ruta de acceso y nombre de archivo válida, como/tmp/latency-%p.txt. - Comprueba que el proceso tenga permisos de escritura en el directorio de salida especificado.
- Si modificaste la variable de entorno
NCCL_TELEMETRY_MODE, verifica que la hayas configurado con un valor que habilite la salida de archivos locales (por ejemplo,1o4).
Soluciona problemas relacionados con datos inesperados o eventos faltantes
Es posible que CoMMA capture datos inesperados o no registre eventos esperados.
Para resolver este problema, verifica que se haya establecido el nivel de detalle requerido.