Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

NCCL in benutzerdefinierten GKE-Clustern mit A4X ausführen

In diesem Dokument wird beschrieben, wie Sie NCCL/gIB-Tests für bereitgestellte Cluster ausführen, die GPUDirect RDMA verwenden. Darin werden Tests für die folgenden Szenarien beschrieben:

Wenn Sie Knoten haben, die mit Flex-Start (Vorabversion) bereitgestellt werden, verwenden Sie einen einfachen Test auf zwei Knoten.
Wenn Sie eine größere Anzahl von Knoten haben, die nicht mit Flex-Start bereitgestellt werden, verwenden Sie einen NCCL-Test mit Topologie-Aware Scheduling.

Auf zwei Knoten testen

Mit dem Cluster verbinden:
```
gcloud container clusters get-credentials CLUSTER_NAME \
    --location=COMPUTE_REGION
```
Ersetzen Sie die folgenden Variablen:
- CLUSTER_NAME: Der Name Ihres Clusters, der für die mit Cluster Toolkit erstellten Cluster auf DEPLOYMENT_NAME basiert.
- COMPUTE_REGION: der Name der Compute-Region.

Führen Sie Folgendes aus, um eine NCCL-Testarbeitslast mit zwei Test-Pods bereitzustellen, die auf zwei A4X-Knoten ausgeführt werden:

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/refs/heads/master/gpudirect-rdma/nccl-test-imex-a4x.yaml

Prüfen Sie, ob die Pods auf einigen Knoten ausgeführt werden:
```
kubectl get pods nccl-test-host-1 nccl-test-host-2
```
Wenn die beiden Pods den Status Running haben, können Sie mit dem nächsten Schritt fortfahren.

Lösen Sie einen All-Gather-Test für die A4X-Knoten aus:

kubectl exec nccl-test-host-1 -it -- /usr/local/gib/scripts/run_nccl_tests.sh -t all_gather -b 1K -e 8G nccl-host-1 nccl-host-2

Die Ausgabe sieht etwa so aus:

#                                                              out-of-place                       in-place
#       size         count      type   redop    root     time   algbw   busbw #wrong     time   algbw   busbw #wrong
#        (B)    (elements)                               (us)  (GB/s)  (GB/s)            (us)  (GB/s)  (GB/s)
        1024            32     float    none      -1    21.20    0.05    0.04      0    20.56    0.05    0.04      0
        2048            64     float    none      -1    21.03    0.10    0.09      0    20.82    0.10    0.09      0
        4096           128     float    none      -1    21.11    0.19    0.17      0    20.98    0.20    0.17      0
        8192           256     float    none      -1    21.51    0.38    0.33      0    21.15    0.39    0.34      0
       16384           512     float    none      -1    21.85    0.75    0.66      0    21.72    0.75    0.66      0
       32768          1024     float    none      -1    24.08    1.36    1.19      0    23.73    1.38    1.21      0
       65536          2048     float    none      -1    24.68    2.66    2.32      0    24.02    2.73    2.39      0
      131072          4096     float    none      -1    24.93    5.26    4.60      0    24.30    5.40    4.72      0
      262144          8192     float    none      -1    24.86   10.55    9.23      0    24.33   10.78    9.43      0
      524288         16384     float    none      -1    25.10   20.89   18.28      0    24.48   21.41   18.74      0
     1048576         32768     float    none      -1    25.43   41.24   36.09      0    24.82   42.25   36.97      0
     2097152         65536     float    none      -1    32.30   64.93   56.81      0    31.28   67.04   58.66      0
     4194304        131072     float    none      -1    45.92   91.34   79.92      0    44.22   94.84   82.99      0
     8388608        262144     float    none      -1    71.38  117.52  102.83      0    68.98  121.61  106.41      0
    16777216        524288     float    none      -1    74.17  226.20  197.93      0    72.37  231.83  202.85      0
    33554432       1048576     float    none      -1    116.6  287.84  251.86      0    112.7  297.75  260.54      0
    67108864       2097152     float    none      -1    188.9  355.27  310.86      0    184.0  364.71  319.12      0
   134217728       4194304     float    none      -1    309.6  433.56  379.36      0    299.7  447.83  391.85      0
   268435456       8388608     float    none      -1    559.0  480.23  420.20      0    540.3  496.85  434.75      0
   536870912      16777216     float    none      -1   1053.7  509.52  445.83      0   1021.4  525.64  459.93      0
  1073741824      33554432     float    none      -1   2087.4  514.39  450.10      0   2013.8  533.19  466.54      0
  2147483648      67108864     float    none      -1   4154.7  516.88  452.27      0   3987.4  538.57  471.25      0
  4294967296     134217728     float    none      -1   8289.2  518.14  453.37      0   7907.4  543.16  475.26      0
  8589934592     268435456     float    none      -1    16556  518.85  453.99      0    15726  546.24  477.96      0
# Out of bounds values : 0 OK
# Avg bus bandwidth    : 175.233
#

Mit TAS testen

Um die Funktionalität des bereitgestellten Clusters zu prüfen, können Sie den folgenden NCCL-Test mit TAS ausführen.

Kueue mit aktiviertem TAS konfigurieren

Kueue mit aktiviertem TAS installieren

Konfigurieren Sie Kueue mit aktivierter TAS, indem Sie die folgende Datei mit dem Namen a4x-kueue-config.yaml erstellen:

apiVersion: kueue.x-k8s.io/v1alpha1
kind: Topology
metadata:
  name: "a4x-default"
spec:
  levels:
  - nodeLabel: "cloud.google.com/gce-topology-block"
  - nodeLabel: "cloud.google.com/gce-topology-subblock"
  - nodeLabel: "cloud.google.com/gke-nodepool"
  - nodeLabel: "cloud.google.com/gce-topology-host"
  - nodeLabel: "kubernetes.io/hostname"
---
kind: ResourceFlavor
apiVersion: kueue.x-k8s.io/v1beta1
metadata:
  name: "a4x"
spec:
  nodeLabels:
    cloud.google.com/gke-accelerator: nvidia-gb200
  topologyName: "a4x-default"
  tolerations:
  - key: "nvidia.com/gpu"
    operator: "Exists"
    effect: NoSchedule
  - key: "kubernetes.io/arch"
    operator: "Exists"
    effect: NoSchedule
---
apiVersion: kueue.x-k8s.io/v1beta1
kind: ClusterQueue
metadata:
  name: "a4x"
spec:
  namespaceSelector: {} # match all.
  resourceGroups:
  - coveredResources: ["nvidia.com/gpu"]
    flavors:
    - name: "a4x"
      resources:
      - name: "nvidia.com/gpu"
        nominalQuota: 1_000_000_000
---
apiVersion: kueue.x-k8s.io/v1beta1
kind: LocalQueue
metadata:
  namespace: "default"
  name: "a4x"
spec:
  clusterQueue: "a4x"

Führen Sie den Test aus:
```
kubectl apply -f a4x-kueue-config.yaml
```

Topologiebewussten NCCL-Test mit Kueue und aktiviertem TAS planen

Die folgende Arbeitslast muss in einem einzelnen NVLink-Domain-Unterblock platziert werden.

JobSet installieren: JobSet ist eine Kubernetes-native API zum Verwalten einer Gruppe von Kubernetes-Jobs als Einheit. Achten Sie darauf, dass Ihre Knotenpools ohne GPUs genügend Ressourcen haben, um die JobSet-Controller zu planen.

Erstellen Sie die folgende Datei mit dem Namen nccl-tas-test.yaml. Ersetzen Sie NUM_NODES durch die gewünschte Anzahl der Knoten, auf denen der NCCL-Test ausgeführt werden soll, bis zu 18:

apiVersion: resource.nvidia.com/v1beta1
kind: ComputeDomain
metadata:
  name: nccl-test-compute-domain
spec:
  numNodes: NUM_NODES
  channel:
    resourceClaimTemplate:
      name: nccl-test-compute-domain-channel
---
apiVersion: jobset.x-k8s.io/v1alpha2
kind: JobSet
metadata:
  name: kueue-tas-nccl-all-gather
  labels:
    kueue.x-k8s.io/queue-name: a4x
spec:
  ttlSecondsAfterFinished: 1200
  network:
    enableDNSHostnames: true
  replicatedJobs:
    - name: worker
      template:
        spec:
          parallelism: NUM_NODES
          completions: NUM_NODES
          template:
            metadata:
              annotations:
                kueue.x-k8s.io/podset-required-topology: "cloud.google.com/gce-topology-subblock"
                networking.gke.io/default-interface: 'eth0'
                networking.gke.io/interfaces: |
                  [
                    {"interfaceName":"eth0","network":"default"},
                    {"interfaceName":"eth2","network":"rdma-0"},
                    {"interfaceName":"eth3","network":"rdma-1"},
                    {"interfaceName":"eth4","network":"rdma-2"},
                    {"interfaceName":"eth5","network":"rdma-3"}
                  ]
            spec:
              activeDeadlineSeconds: 3600
              restartPolicy: Never
              nodeSelector:
                cloud.google.com/gke-accelerator: nvidia-gb200
              tolerations:
              - key: nvidia.com/gpu
                operator: Equal
                value: present
                effect: NoSchedule
              - key: kubernetes.io/arch
                operator: Equal
                value: arm64
                effect: NoSchedule
              setHostnameAsFQDN: true
              volumes:
              - name: gib
                hostPath:
                  path: /home/kubernetes/bin/gib
              - name: nvidia
                hostPath:
                  path: /home/kubernetes/bin/nvidia
              - name: lib64
                hostPath:
                  path: /lib64
              - name: shared-memory
                emptyDir:
                  medium: "Memory"
                  sizeLimit: 250Gi
              resourceClaims:
              - name: compute-domain-channel
                resourceClaimTemplateName: nccl-test-compute-domain-channel
              containers:
              - name: nccl-test
                stdin: true
                tty: true
                image: us-docker.pkg.dev/gce-ai-infra/gpudirect-gib/nccl-plugin-gib-diagnostic-arm64:v1.0.4
                env:
                - name: MY_NODE_NAME
                  valueFrom:
                    fieldRef:
                      fieldPath: spec.nodeName
                - name: OMPI_ALLOW_RUN_AS_ROOT
                  value: "1"
                - name: OMPI_ALLOW_RUN_AS_ROOT_CONFIRM
                  value: "1"
                - name: N_NODES
                  value: "NUM_NODES"
                - name: LD_LIBRARY_PATH
                  value: /usr/local/nvidia/lib64
                command:
                - bash
                - -c
                - |
                  set -x
                  echo "Starting workload container on ${MY_NODE_NAME} for $N_NODES benchmark"
                  # Install ping
                  apt update -y
                  apt install -y iputils-ping

                  # Start sshd
                  /scripts/container_entry.sh daemon &

                  # Get helper variables to form all hostnames
                  export POSTFIX=$(hostname | cut -d . -f 2-)
                  export WORKERS_BASENAME=$(hostname | cut -d . -f 1 | rev | cut -d - -f 2- | rev )
                  export NODE_RANK=$JOB_COMPLETION_INDEX

                  # For every worker, wait till online and add to hostfile
                  for i in `seq 0 $(($N_NODES-1))`; do
                    OTHER=${WORKERS_BASENAME}-${i}.${POSTFIX}
                    until ssh -p 222 -o StrictHostKeyChecking=no $OTHER hostname; do
                      echo Waiting for ${OTHER}...
                      sleep 10
                    done
                    echo ${OTHER} port=222 slots=4 | tee -a /tmp/hostfile;
                  done

                  cat /tmp/hostfile

                  # Launch from head node
                  if [[ "${NODE_RANK}" -eq "0" ]]; then

                      # World Level = 0x0, Rail Aligned = 0x7
                      export NCCL_TESTS_SPLIT_MASK="0x0";

                      # Force use of libnccl-gib
                      export NCCL_NET=gIB

                      # Set all the correct libnccl-gib environment variables
                      source /usr/local/gib/scripts/set_nccl_env.sh

                      # Get all relevant NCCL / env vars to pass to all workers
                      ENV_VARS=$(echo ${!NCCL*} ${!OMPI*} LD_LIBRARY_PATH PATH | sed 's/ / -x /g')

                      mpirun --hostfile /tmp/hostfile \
                        -x $ENV_VARS  \
                        -mca plm_rsh_no_tree_spawn 1 \
                        --mca orte_keep_fqdn_hostnames 1 \
                        --mca btl self,tcp \
                        --mca btl_tcp_if_include eth0 \
                        --bind-to none \
                        --mca plm_rsh_agent "ssh -q -o LogLevel=ERROR -o StrictHostKeyChecking=no -p 222" \
                        /third_party/nccl-tests/build/all_gather_perf -b 1K -e 8G -f 2 -g 1 -w 5 --iters 100 -c 1

                  else
                      while ping -c 1 ${WORKERS_BASENAME}-0.${POSTFIX}; do
                      sleep 5
                  done
                  fi

                  exit 0
                volumeMounts:
                - name: nvidia
                  mountPath: /usr/local/nvidia
                - name: gib
                  mountPath: /usr/local/gib
                - name: shared-memory
                  mountPath: /dev/shm
                resources:
                  limits:
                    nvidia.com/gpu: 4
                  requests:
                    nvidia.com/gpu: 4
                  claims:
                    - name: compute-domain-channel
              restartPolicy: Never

Führen Sie den Test aus:
```
kubectl apply -f nccl-tas-test.yaml
```

Prüfen Sie das Testergebnis anhand der Logs:

kubectl logs $(kubectl get pods -o go-template='{{range .items}}{{.metadata.name}}{{"\n"}}{{end}}' | grep kueue-tas-nccl-all-gather-worker-0-0)