Framework machine learning modern sering menggunakan NVIDIA Collective Communications Library (NCCL) untuk primitif komunikasi antar-GPU.
Versi NCCL yang ditingkatkan dari Google disebut NCCL/gIB dan tersedia di VM A3 Ultra, A4, dan A4X Google Cloud. NCCL/gIB sering kali memiliki performa lebih tinggi daripada NCCL upstream di infrastruktur Google. Karena performa NCCL dapat memengaruhi performa beban kerja secara keseluruhan, sebaiknya gunakan NCCL/gIB.
NCCL/gIB berisi fitur dan pengoptimalan khusus Google seperti berikut:
- Plugin jaringan gIB menawarkan load balancing yang lebih baik di jaringan Google, sehingga menghasilkan throughput tinggi dan latensi rendah yang lebih konsisten selama operasi kolektif.
- Plugin tuner kustom, yang memilih opsi penyetelan terbaik di VM Google Cloud .
- Plugin profiler CoMMA memberikan metrik performa dan data diagnostik yang mendetail untuk beban kerja Anda.
Arsitektur NCCL/gIB
NCCL/gIB berinteraksi dengan framework machine learning dan GPU NVIDIA di cluster Anda untuk mengoptimalkan performa dan mengumpulkan telemetri, seperti yang ditunjukkan dalam diagram ini:

Manfaat menggunakan NCCL/gIB
Meskipun NVIDIA Collective Communications Library upstream dapat digunakan di VM Google Cloud tanpa masalah stabilitas, NCCL/gIB lebih dioptimalkan untuk Google Cloud dan perbedaan performanya bisa sangat signifikan untuk pola komunikasi tertentu, bahkan dengan parameter NCCL yang sama.
Misalnya, grafik berikut menunjukkan perbandingan NCCL/gIB dengan NCCL upstream pada performa AllReduce. NCCL/gIB mengungguli NCCL upstream hingga 12x pada ukuran pesan tertentu.

Performa NCCL AllReduce 32 node menggunakan A3 Ultra (H200) tanpa traffic latar belakang.
Demikian pula dalam perbandingan NCCL/gIB dengan NCCL upstream pada performa AllGather dengan traffic latar belakang, NCCL/gIB mengungguli NCCL upstream sekitar 50% pada ukuran pesan yang lebih besar, seperti yang ditunjukkan dalam grafik ini.

Performa NCCL AllGather 32 node menggunakan A3 Ultra (H200) pada fabric bersama dengan latar belakang yang bising.
Selain itu, plugin profiler CoMMA memberi Google telemetri kustom yang lebih baik, sehingga kami dapat membantu Anda dengan lebih baik jika terjadi masalah tingkat workload.
Menggunakan NCCL/gIB
Untuk menjalankan pengujian NCCL/gIB di cluster Anda, pilih halaman dari daftar berikut yang paling sesuai dengan persyaratan Anda:
- Menjalankan pengujian NCCL di VM Compute Engine
- Menjalankan NCCL di cluster GKE yang menggunakan konfigurasi default
- Menjalankan NCCL di cluster GKE kustom yang menggunakan A4X
- Menjalankan NCCL di cluster GKE kustom yang menggunakan A4 atau A3 Ultra
- Menjalankan pengujian NCCL di cluster Slurm
- Menjalankan pengujian NCCL di Cluster Director
Untuk mempelajari cara mengatasi masalah apa pun pada cluster setelah Anda menjalankan pengujian, lihat Mengumpulkan dan memahami log NCCL/gIB untuk pemecahan masalah.