Soluciona problemas del Analizador de comunicación colectiva (CoMMA)

En esta página, se muestra cómo resolver problemas habituales que podrías encontrar cuando uses el Analizador de comunicación colectiva (CoMMA). CoMMA es una biblioteca que recopila datos de telemetría para los servicios de Google Cloud . Para obtener más información, consulta Collective Communication Analyzer (CoMMA).

Soluciona problemas de carga de CoMMA

Es posible que CoMMA no se cargue correctamente. Para verificar que los archivos binarios se carguen correctamente, completa estos pasos:

  1. Habilita el registro de depuración de NCCL. Para habilitar el registro, establece la variable de entorno NCCL_DEBUG=INFO. También puedes usar un nivel de depuración más detallado. Para ver las opciones, consulta la sección NCCL_DEBUG en la documentación de NVIDIA.
  2. Especifica el subsistema INIT para la depuración. Para especificar INIT, establece NCCL_DEBUG_SUBSYS=INIT. También puedes agregar otros subsistemas. Para obtener más opciones de subsistemas, consulta la sección NCCL_DEBUG_SUBSYS.
  3. Busca una línea en el registro de NCCL que sea similar a la siguiente: NCCL INFO PROFILER/Plugin: Plugin name set by env to PATH_TO_PROFILER_PLUGIN

    Si la variable de entorno NCCL_PROFILER_PLUGIN no está configurada, es posible que NCCL intente cargar el objeto binario libnccl-profiler.so desde la ruta de acceso especificada en la variable de entorno LD_LIBRARY_PATH.

Para resolver este problema, considera las siguientes soluciones:

  • Verifica que la biblioteca compartida del complemento (libnccl-profiler.so) tenga el nombre correcto.

    Comprueba que se encuentre en un directorio especificado en la variable de entorno LD_LIBRARY_PATH. Como alternativa, verifica que la variable de entorno NCCL_PROFILER_PLUGIN apunte directamente a la ubicación del archivo binario libnccl-profiler.so.

  • Verifica que tu versión de NCCL sea 2.23 o posterior, ya que la API del generador de perfiles de NCCL requiere esta versión.

Soluciona problemas relacionados con la falta de archivos de salida

Si configuraste tu entorno para enviar los datos recopilados por CoMMA a un archivo local, pero falta el archivo de salida, consulta los registros de NCCL o los registros de la aplicación para ver si hay mensajes similares a los siguientes:

Failed to open file
Failed to log <telemetry type> to file

Estos errores indican un problema subyacente del sistema de archivos, como un directorio faltante o espacio libre insuficiente. CoMMA deja de exportar datos de telemetría a archivos después de que se producen estos errores.

Para resolver este problema, considera las siguientes soluciones:

  • Verifica que las variables de entorno NCCL_PROFILER_LATENCY_FILE o NCCL_PROFILER_SUMMARY_FILE estén configuradas correctamente. Proporciona una plantilla de ruta de acceso y nombre de archivo válida, como /tmp/latency-%p.txt.
  • Comprueba que el proceso tenga permisos de escritura en el directorio de salida especificado.
  • Si modificaste la variable de entorno NCCL_TELEMETRY_MODE, verifica que la hayas configurado con un valor que habilite la salida de archivos locales (por ejemplo, 1 o 4).

Soluciona problemas relacionados con datos inesperados o eventos faltantes

Es posible que CoMMA capture datos inesperados o no registre eventos esperados.

Para resolver este problema, verifica que se haya establecido el nivel de detalle requerido.