I moderni framework di machine learning spesso utilizzano la NVIDIA Collective Communications Library (NCCL) per le primitive di comunicazione da GPU a GPU.
La versione avanzata di NCCL di Google si chiama NCCL/gIB ed è disponibile sulle VM A3 Ultra, A4 e A4X di Google Cloud. NCCL/gIB è spesso più performante rispetto a NCCL upstream sull'infrastruttura Google. Poiché le prestazioni di NCCL possono influire sul rendimento complessivo del carico di lavoro, ti consigliamo di utilizzare NCCL/gIB.
NCCL/gIB contiene funzionalità e ottimizzazioni specifiche di Google, ad esempio:
- Il plug-in di rete gIB offre un bilanciamento del carico migliorato sulle reti di Google, garantendo una velocità effettiva elevata e una bassa latenza in modo più coerente durante le operazioni collettive.
- Un plug-in di ottimizzazione personalizzato, che seleziona le migliori opzioni di ottimizzazione sulle VM Google Cloud .
- Il plug-in Profiler CoMMA fornisce metriche dettagliate sul rendimento e dati diagnostici per il tuo workload.
Architettura NCCL/gIB
NCCL/gIB interagisce con il framework di machine learning e le GPU NVIDIA sui cluster per ottimizzare le prestazioni e raccogliere la telemetria, come mostrato in questo diagramma:

Vantaggi dell'utilizzo di NCCL/gIB
Sebbene sia possibile utilizzare la libreria NVIDIA Collective Communications Library upstream sulle VM senza problemi di stabilità, NCCL/gIB è ottimizzata meglio per Google Cloud e la disparità di rendimento può essere molto significativa per determinati pattern di comunicazione, anche con gli stessi parametri NCCL. Google Cloud
Ad esempio, il seguente grafico mostra un confronto tra NCCL/gIB e NCCL upstream in termini di prestazioni di AllReduce. NCCL/gIB supera NCCL upstream fino a 12 volte per determinate dimensioni dei messaggi.

Prestazioni di NCCL AllReduce a 32 nodi utilizzando A3 Ultra (H200) senza traffico in background.
Analogamente, in un confronto tra NCCL/gIB e NCCL upstream sul rendimento di AllGather con traffico in background, NCCL/gIB supera NCCL upstream di circa il 50% per dimensioni dei messaggi più grandi, come mostrato in questo grafico.

Prestazioni di NCCL AllGather a 32 nodi utilizzando A3 Ultra (H200) su un fabric condiviso con un background rumoroso.
Inoltre, il plug-in di profilazione CoMMA fornisce a Google una telemetria personalizzata migliorata, consentendoci di assisterti meglio in caso di problemi a livello di carico di lavoro.
Utilizzo di NCCL/gIB
Per eseguire test NCCL/gIB sul cluster, scegli la pagina dal seguente elenco che soddisfa meglio i tuoi requisiti:
- Esegui test NCCL sulle VM di Compute Engine
- Esegui NCCL sui cluster GKE che utilizzano la configurazione predefinita
- Esegui NCCL su cluster GKE personalizzati che utilizzano A4X
- Esegui NCCL su cluster GKE personalizzati che utilizzano A4 o A3 Ultra
- Eseguire test NCCL sui cluster Slurm
- Eseguire test NCCL in Cluster Director
Per scoprire come risolvere eventuali problemi con il cluster dopo aver eseguito i test, vedi Raccogliere e comprendere i log NCCL/gIB per la risoluzione dei problemi.