Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Optimisez la mise en réseau du cluster à l'aide de NCCL/gIB

Les frameworks de machine learning modernes utilisent souvent la bibliothèque NVIDIA Collective Communications Library (NCCL) comme primitives de communication entre les GPU.

La version améliorée de NCCL de Google s'appelle NCCL/gIB et est disponible sur les VM A3-Ultra, A4 et A4X de Google Cloud. NCCL/gIB est souvent plus performant que NCCL en amont sur l'infrastructure Google. Étant donné que les performances de NCCL peuvent avoir un impact sur les performances globales de la charge de travail, nous vous recommandons d'utiliser NCCL/gIB.

NCCL/gIB contient des fonctionnalités et des optimisations spécifiques à Google, telles que les suivantes :

Le plug-in réseau gIB améliore l'équilibrage de charge sur les réseaux Google, ce qui permet d'obtenir un débit élevé et une faible latence de manière plus cohérente lors des opérations collectives.
Un plug-in de réglage personnalisé, qui sélectionne les meilleures options de réglage sur les VM Google Cloud .
Le plug-in de profilage CoMMA fournit des métriques de performances détaillées et des données de diagnostic pour votre charge de travail.
Le plug-in env fournit des configurations de variables spécifiques à la plate-forme sur les VM Google Cloud .

Architecture NCCL/gIB

NCCL/gIB interagit avec votre framework de machine learning et les GPU NVIDIA de vos clusters pour optimiser les performances et collecter des données de télémétrie, comme illustré dans ce diagramme :

La charge de travail de ML est gérée par un framework de ML qui se connecte à la fois aux GPU NVIDIA et à NCCL, tandis que NCCL se connecte à divers outils et plug-ins Google.

Avantages de l'utilisation de NCCL/gIB

Bien qu'il soit possible d'utiliser la bibliothèque NVIDIA Collective Communications Library en amont sur les VM Google Cloud sans problème de stabilité, NCCL/gIB est mieux optimisé pour Google Cloud . La disparité de performances peut être très importante pour certains schémas de communication, même avec les mêmes paramètres NCCL.

Par exemple, le graphique suivant compare les performances NCCL/gIB avec celles de NCCL en amont pour AllReduce. NCCL/gIB surpasse NCCL en amont jusqu'à 12 fois pour certaines tailles de messages.

Graphique montrant que NCCL/gIB surpasse NCCL en amont dans les tâches AllReduce.

Performances NCCL AllReduce à 32 nœuds avec A3 Ultra (H200) sans trafic en arrière-plan.

De même, dans une comparaison entre NCCL/gIB et NCCL en amont sur les performances AllGather avec le trafic en arrière-plan, NCCL/gIB surpasse NCCL en amont d'environ 50% pour les messages de grande taille, comme le montre ce graphique.

Graphique montrant que NCCL/gIB surpasse NCCL en amont pour les tâches AllGather.

Performances NCCL AllGather à 32 nœuds avec A3 Ultra (H200) sur un tissu partagé avec un bruit de fond.

De plus, le plug-in de profileur CoMMA fournit à Google une télémétrie personnalisée améliorée, ce qui nous permet de mieux vous aider en cas de problème au niveau de la charge de travail.

Installer NCCL/gIB

Avant d'exécuter des tests NCCL, vous devez installer NCCL/gIB dans votre environnement d'exécution.

Utiliser NCCL/gIB

Pour exécuter des tests NCCL/gIB sur votre cluster, choisissez la page de la liste suivante qui répond le mieux à vos besoins :

Pour savoir comment résoudre les problèmes liés à votre cluster après avoir exécuté vos tests, consultez Collecter et comprendre les journaux NCCL/gIB pour le dépannage.

Optimisez la mise en réseau du cluster à l'aide de NCCL/gIB Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Architecture NCCL/gIB

Avantages de l'utilisation de NCCL/gIB

Installer NCCL/gIB

Utiliser NCCL/gIB

Optimisez la mise en réseau du cluster à l'aide de NCCL/gIB