Ottimizza il networking del cluster utilizzando NCCL/gIB

I moderni framework di machine learning spesso utilizzano la NVIDIA Collective Communications Library (NCCL) per le primitive di comunicazione da GPU a GPU.

La versione avanzata di NCCL di Google si chiama NCCL/gIB ed è disponibile sulle VM A3 Ultra, A4 e A4X di Google Cloud. NCCL/gIB è spesso più performante rispetto a NCCL upstream sull'infrastruttura Google. Poiché le prestazioni di NCCL possono influire sul rendimento complessivo del carico di lavoro, ti consigliamo di utilizzare NCCL/gIB.

NCCL/gIB contiene funzionalità e ottimizzazioni specifiche di Google, ad esempio:

  • Il plug-in di rete gIB offre un bilanciamento del carico migliorato sulle reti di Google, garantendo una velocità effettiva elevata e una bassa latenza in modo più coerente durante le operazioni collettive.
  • Un plug-in di ottimizzazione personalizzato, che seleziona le migliori opzioni di ottimizzazione sulle VM Google Cloud .
  • Il plug-in Profiler CoMMA fornisce metriche dettagliate sul rendimento e dati diagnostici per il tuo workload.

Architettura NCCL/gIB

NCCL/gIB interagisce con il framework di machine learning e le GPU NVIDIA sui cluster per ottimizzare le prestazioni e raccogliere la telemetria, come mostrato in questo diagramma:

Il carico di lavoro ML è gestito da un framework ML che si connette sia alle GPU NVIDIA sia a NCCL, mentre NCCL si connette a vari strumenti e plug-in Google.

Vantaggi dell'utilizzo di NCCL/gIB

Sebbene sia possibile utilizzare la libreria NVIDIA Collective Communications Library upstream sulle VM senza problemi di stabilità, NCCL/gIB è ottimizzata meglio per Google Cloud e la disparità di rendimento può essere molto significativa per determinati pattern di comunicazione, anche con gli stessi parametri NCCL. Google Cloud

Ad esempio, il seguente grafico mostra un confronto tra NCCL/gIB e NCCL upstream in termini di prestazioni di AllReduce. NCCL/gIB supera NCCL upstream fino a 12 volte per determinate dimensioni dei messaggi.

Un grafico che mostra che NCCL/gIB supera NCCL upstream nelle attività AllReduce.

Prestazioni di NCCL AllReduce a 32 nodi utilizzando A3 Ultra (H200) senza traffico in background.

Analogamente, in un confronto tra NCCL/gIB e NCCL upstream sul rendimento di AllGather con traffico in background, NCCL/gIB supera NCCL upstream di circa il 50% per dimensioni dei messaggi più grandi, come mostrato in questo grafico.

Un grafico che mostra che NCCL/gIB supera NCCL upstream nelle attività AllGather.

Prestazioni di NCCL AllGather a 32 nodi utilizzando A3 Ultra (H200) su un fabric condiviso con un background rumoroso.

Inoltre, il plug-in di profilazione CoMMA fornisce a Google una telemetria personalizzata migliorata, consentendoci di assisterti meglio in caso di problemi a livello di carico di lavoro.

Utilizzo di NCCL/gIB

Per eseguire test NCCL/gIB sul cluster, scegli la pagina dal seguente elenco che soddisfa meglio i tuoi requisiti:

Per scoprire come risolvere eventuali problemi con il cluster dopo aver eseguito i test, vedi Raccogliere e comprendere i log NCCL/gIB per la risoluzione dei problemi.