Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Ejecuta NCCL en clústeres de Slurm

En esta página, se describe cómo ejecutar pruebas de NCCL en un clúster de Slurm. Para usar un entorno de Slurm administrado que incluya pruebas de NCCL integradas para verificar el estado del clúster, consulta en su lugar Cluster Director.

Elige los pasos para tu tipo de máquina:

A4X Max, A4X y A4

En la siguiente prueba, se usa Ramble, que es un framework de experimentación de código abierto y multiplataforma escrito en Python que se usa para coordinar la ejecución de pruebas de NCCL. Ramble y sus dependencias son compatibles con la arquitectura ARM64 que usan las máquinas A4X Max y A4X.

Las secuencias de comandos de ejecución que se usan para esta prueba se almacenan en /opt/apps/system_benchmarks en el nodo del controlador de Slurm y están disponibles para todos los nodos del clúster. La ejecución de esta prueba instala Ramble en el directorio /opt/apps/ramble.

Desde el nodo de acceso en el directorio ${HOME}, ejecuta el siguiente comando. Debido a que la prueba puede tardar aproximadamente 10 minutos o más si hay otros trabajos en la cola, el siguiente comando usa nohup y redirecciona stdout/err a un archivo de registro.
```
nohup bash /opt/apps/system_benchmarks/run-nccl-tests-via-ramble.sh >& nccl.log &
```
Este comando crea una carpeta llamada nccl-tests_$(date +%s) que almacena todos los resultados de la prueba. La etiqueta de fecha garantiza que se cree una carpeta única según cada marca de tiempo actual.

Por ejemplo, si tu clúster tiene 16 nodos, las pruebas de NCCL se ejecutan para all-gather, all-reduce y reduce-scatter en 2, 4, 8 y 16 nodos.
Revisa los resultados. nccl.log contiene los registros de configuración y ejecución de la prueba. Para ver estos registros, ejecuta lo siguiente:
```
tail -f nccl.log
```
También puedes usar Ctrl+C para dejar de seguir la salida en cualquier momento. Al final de nccl.log, tu resultado debería ser similar al siguiente:
```
...
---- SUMMARY for >1GB Message Sizes ----
workload        n_nodes msg_size        busbw
all-gather      2       1073741824      ###.##
all-gather      2       2147483648      ###.##
all-gather      2       4294967296      ###.##
all-gather      2       8589934592      ###.##
...
all-reduce      2       1073741824      ###.##
...
reduce-scatter  2       1073741824      ###.##
...
-------- Benchmarking Complete -------
```
Todas las secuencias de comandos de trabajo de Slurm y los registros de salida de nccl-tests se almacenan en el directorio nccl-tests_$(date +%s)/experiments. También se almacena un resumen del rendimiento de la prueba de NCCL en el archivo nccl-tests_${date +%s)/summary.tsv.

Si quitas el directorio nccl-tests_$(date +%s)/, se quitarán todos los archivos generados durante estas pruebas.

A3 Ultra

Desde el directorio compartido del nodo de acceso (este nodo suele ubicarse en ${HOME}), descarga la secuencia de comandos necesaria para compilar la prueba de NCCL ejecutando el siguiente comando:
```
wget -np -nd https://raw.githubusercontent.com/GoogleCloudPlatform/cluster-toolkit/refs/heads/main/examples/machine-learning/a3-ultragpu-8g/nccl-tests/build-nccl-tests.sh
```
Después de que se descargue la secuencia de comandos, importa una imagen de Pytorch desde el registro de contenedores de NVIDIA y compila las pruebas de NCCL. Para ello, ejecuta el comando que se indica a continuación:
```
sbatch build-nccl-tests.sh
```
La secuencia de comandos anterior se ejecuta en uno de tus nodos. Usa el modificador --container-mounts para activar tu directorio actual, $PWD, en el directorio /nccl dentro del contenedor.
Verifica que se haya compilado la prueba de NCCL. Para verificar que sea así, ejecuta el siguiente comando:
```
sacct -a
```
Si se completa correctamente, el resultado es similar al siguiente:
```
JobID           JobName  Partition    Account  AllocCPUS      State ExitCode
------------ ---------- ---------- ---------- ---------- ---------- --------
1            build-ncc+    a3ultra                   112  COMPLETED      0:0
```
Si la compilación se realiza correctamente, también deberías tener un archivo llamado nvidia+pytorch+24.09-py3.sqsh en el directorio en el que ejecutaste el comando junto con un directorio llamado nccl-tests.
Verifica que la carpeta nccl-tests/build contenga varios archivos binarios, incluidos all_gather_perf, all_reduce_perf, reduce_scatter_perf y alltoall_perf.
Descarga la secuencia de comandos de prueba de NCCL.
```
wget -np -nd https://raw.githubusercontent.com/GoogleCloudPlatform/cluster-toolkit/refs/heads/main/examples/machine-learning/a3-ultragpu-8g/nccl-tests/run-nccl-tests.sh
```
Para ejecutar cualquier trabajo en un clúster de A3 Ultra, se deben configurar varias variables de entorno para habilitar redes de alto rendimiento con RDMA. Debido a que usas contenedores enroot en este procedimiento para iniciar cargas de trabajo, estas variables se deben configurar en el entorno del contenedor en lugar del entorno del host. Estas variables se pueden inspeccionar en la secuencia de comandos run-nccl-tests.sh que acabas de descargar.
Ejecuta la secuencia de comandos de prueba de NCCL. La prueba puede tardar aproximadamente 15 minutos o más.
```
sbatch run-nccl-tests.sh
```

Revisa los resultados. La secuencia de comandos genera un archivo slurm-XX.out que contiene el resultado de la comparativa de nccl all_gather_perf.

El resultado es similar a este:

#
#                                                              out-of-place                       in-place
#        size         count     type     redop   root     time   algbw   busbw #wrong     time   algbw   busbw #wrong
#         (B)    (elements)                               (us)  (GB/s)  (GB/s)            (us)  (GB/s)  (GB/s)
    268435456       4194304     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
    536870912       8388608     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
   1073741824      16777216     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
   2147483648      33554432     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
   4294967296      67108864     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
   8589934592     134217728     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
# Out of bounds values : 0 OK
# Avg bus bandwidth    : ###.##
#

A3 Mega

Desde el directorio compartido del nodo de acceso (este nodo suele ubicarse en ${HOME}), descarga la secuencia de comandos necesaria para compilar la prueba de NCCL ejecutando el siguiente comando:
```
wget -np -nd https://raw.githubusercontent.com/GoogleCloudPlatform/cluster-toolkit/refs/heads/main/examples/machine-learning/a3-megagpu-8g/nccl-tests/build-nccl-tests.sh
```
Después de que se descargue la secuencia de comandos, importa una imagen de Pytorch desde el registro de contenedores de NVIDIA y compila las pruebas de NCCL.
```
sbatch build-nccl-tests.sh
```
La secuencia de comandos anterior se ejecuta en uno de tus nodos. Usa el modificador --container-mounts para activar tu directorio actual, $PWD, en el directorio /nccl dentro del contenedor.
Verifica que se haya compilado la prueba de NCCL:
```
sacct -a
```
El resultado es similar a este:
```
JobID           JobName  Partition    Account  AllocCPUS      State ExitCode
------------ ---------- ---------- ---------- ---------- ---------- --------
1            build-ncc+    a3mega                   112  COMPLETED      0:0
```
Una vez que se completa la compilación, se crea el directorio nccl-tests. Este directorio contiene el archivo nvidia+pytorch+24.09-py3.sqsh. Un archivo .sqsh es una imagen de sistema de archivos comprimida de solo lectura que sirve como formato de contenedor estándar para cargas de trabajo de IA.
Verifica que la carpeta nccl-tests/build contenga varios archivos binarios, incluidos all_gather_perf, all_reduce_perf, reduce_scatter_perf y alltoall_perf.
Descarga la secuencia de comandos de prueba de NCCL:
```
wget -np -nd https://raw.githubusercontent.com/GoogleCloudPlatform/cluster-toolkit/refs/heads/main/examples/machine-learning/a3-megagpu-8g/nccl-tests/run-nccl-tests.sh
```
Para ejecutar cualquier trabajo en un clúster de A3 Mega, se deben configurar varias variables de entorno para habilitar redes de alto rendimiento con el protocolo GPUDirect-TCPXO. Debido a que usas contenedores enroot en este procedimiento para iniciar cargas de trabajo, estas variables se deben configurar en el entorno del contenedor en lugar del entorno del host. Puedes inspeccionar estas variables en la secuencia de comandos run-nccl-tests.sh que descargaste en el paso anterior.
Ejecuta la secuencia de comandos de prueba de NCCL. La prueba puede tardar aproximadamente 15 minutos o más.
```
sbatch run-nccl-tests.sh
```

Revisa los resultados. La secuencia de comandos genera un archivo slurm-XX.out que contiene el resultado de la comparativa de nccl all_gather_perf.

El resultado es similar a este:

#
#                                                              out-of-place                       in-place
#        size         count     type     redop   root     time   algbw   busbw #wrong     time   algbw   busbw #wrong
#         (B)    (elements)                               (us)  (GB/s)  (GB/s)            (us)  (GB/s)  (GB/s)
    268435456       4194304     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
    536870912       8388608     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
   1073741824      16777216     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
   2147483648      33554432     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
   4294967296      67108864     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
   8589934592     134217728     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
# Out of bounds values : 0 OK
# Avg bus bandwidth    : ###.##
#

A3 High

Desde el directorio compartido del nodo de acceso (este nodo suele ubicarse en ${HOME}), descarga la secuencia de comandos necesaria para compilar la prueba de NCCL ejecutando el siguiente comando:
```
wget -np -nd https://raw.githubusercontent.com/GoogleCloudPlatform/cluster-toolkit/refs/heads/main/examples/machine-learning/a3-highgpu-8g/nccl-tests/build-nccl-tests.sh
```
Después de que se descargue la secuencia de comandos, importa una imagen de Pytorch desde el registro de contenedores de NVIDIA y compila las pruebas de NCCL. Para ello, ejecuta el comando que se indica a continuación:
```
sbatch build-nccl-tests.sh
```
La secuencia de comandos anterior se ejecuta en uno de tus nodos. Usa el modificador --container-mounts para activar tu directorio actual, $PWD, en el directorio /nccl dentro del contenedor.
Verifica que se haya compilado la prueba de NCCL:
```
sacct -a
```
El resultado es similar a este:
```
JobID           JobName  Partition    Account  AllocCPUS      State ExitCode
------------ ---------- ---------- ---------- ---------- ---------- --------
1            build-ncc+    a3high                   112  COMPLETED      0:0
```
Si la compilación se realiza correctamente, se crea el directorio nccl-tests. Este directorio contiene el archivo nvidia+pytorch+24.09-py3.sqsh. Un archivo .sqsh es una imagen de sistema de archivos comprimida de solo lectura que sirve como formato de contenedor estándar para cargas de trabajo de IA.
Verifica que la carpeta nccl-tests/build contenga varios archivos binarios, incluidos all_gather_perf, all_reduce_perf, reduce_scatter_perf y alltoall_perf.
Descarga la secuencia de comandos de prueba de NCCL:
```
wget -np -nd https://raw.githubusercontent.com/GoogleCloudPlatform/cluster-toolkit/refs/heads/main/examples/machine-learning/a3-highgpu-8g/nccl-tests/run-nccl-tests.sh
```
Para ejecutar cualquier trabajo en un clúster de A3 High, se deben configurar varias variables de entorno para habilitar redes de alto rendimiento con GPUDirect-TCPX. Debido a que usas contenedores enroot en este procedimiento para iniciar cargas de trabajo, estas variables se deben configurar en el entorno del contenedor en lugar del entorno del host. Puedes inspeccionar estas variables en la secuencia de comandos run-nccl-tests.sh que acabas de descargar.
Ejecuta la secuencia de comandos de prueba de NCCL. La prueba puede tardar aproximadamente 15 minutos o más.
```
sbatch run-nccl-tests.sh
```

Revisa los resultados. La secuencia de comandos genera un archivo slurm-XX.out que contiene el resultado de la comparativa de nccl all_gather_perf.

El resultado es similar a este:

#
#                                                              out-of-place                       in-place
#        size         count     type     redop   root     time   algbw   busbw #wrong     time   algbw   busbw #wrong
#         (B)    (elements)                               (us)  (GB/s)  (GB/s)            (us)  (GB/s)  (GB/s)
    268435456       4194304     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
    536870912       8388608     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
   1073741824      16777216     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
   2147483648      33554432     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
   4294967296      67108864     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
   8589934592     134217728     float    none      -1    #####  ###.##  ###.##    N/A   ######  ###.##  ###.##      0
# Out of bounds values : 0 OK
# Avg bus bandwidth    : ###.##
#

¿Qué sigue?

Recopila y comprende los registros de NCCL para solucionar problemas para comprender los resultados de las pruebas y solucionar problemas.
Supervisa las instancias de Compute Engine y los clústeres de Slurm.
Obtén más información sobre cómo solucionar problemas de rendimiento lento.

Ejecuta NCCL en clústeres de Slurm Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

A4X Max, A4X y A4

A3 Ultra

A3 Mega

A3 High

¿Qué sigue?

Ejecuta NCCL en clústeres de Slurm