Mengoptimalkan jejaring cluster menggunakan NCCL/gIB.

Framework machine learning modern sering menggunakan NVIDIA Collective Communications Library (NCCL) untuk primitif komunikasi antar-GPU.

Versi NCCL yang ditingkatkan dari Google disebut NCCL/gIB dan tersedia di VM A3 Ultra, A4, dan A4X Google Cloud. NCCL/gIB sering kali memiliki performa lebih tinggi daripada NCCL upstream di infrastruktur Google. Karena performa NCCL dapat memengaruhi performa beban kerja secara keseluruhan, sebaiknya gunakan NCCL/gIB.

NCCL/gIB berisi fitur dan pengoptimalan khusus Google seperti berikut:

  • Plugin jaringan gIB menawarkan load balancing yang lebih baik di jaringan Google, sehingga menghasilkan throughput tinggi dan latensi rendah yang lebih konsisten selama operasi kolektif.
  • Plugin tuner kustom, yang memilih opsi penyetelan terbaik di VM Google Cloud .
  • Plugin profiler CoMMA memberikan metrik performa dan data diagnostik yang mendetail untuk beban kerja Anda.

Arsitektur NCCL/gIB

NCCL/gIB berinteraksi dengan framework machine learning dan GPU NVIDIA di cluster Anda untuk mengoptimalkan performa dan mengumpulkan telemetri, seperti yang ditunjukkan dalam diagram ini:

Workload ML dikelola oleh framework ML yang terhubung ke GPU NVIDIA dan NCCL, sedangkan NCCL terhubung ke berbagai alat dan plugin Google.

Manfaat menggunakan NCCL/gIB

Meskipun NVIDIA Collective Communications Library upstream dapat digunakan di VM Google Cloud tanpa masalah stabilitas, NCCL/gIB lebih dioptimalkan untuk Google Cloud dan perbedaan performanya bisa sangat signifikan untuk pola komunikasi tertentu, bahkan dengan parameter NCCL yang sama.

Misalnya, grafik berikut menunjukkan perbandingan NCCL/gIB dengan NCCL upstream pada performa AllReduce. NCCL/gIB mengungguli NCCL upstream hingga 12x pada ukuran pesan tertentu.

Grafik yang menunjukkan bahwa NCCL/gIB mengungguli NCCL upstream dalam tugas AllReduce.

Performa NCCL AllReduce 32 node menggunakan A3 Ultra (H200) tanpa traffic latar belakang.

Demikian pula dalam perbandingan NCCL/gIB dengan NCCL upstream pada performa AllGather dengan traffic latar belakang, NCCL/gIB mengungguli NCCL upstream sekitar 50% pada ukuran pesan yang lebih besar, seperti yang ditunjukkan dalam grafik ini.

Grafik yang menunjukkan bahwa NCCL/gIB mengungguli NCCL upstream dalam tugas AllGather.

Performa NCCL AllGather 32 node menggunakan A3 Ultra (H200) pada fabric bersama dengan latar belakang yang bising.

Selain itu, plugin profiler CoMMA memberi Google telemetri kustom yang lebih baik, sehingga kami dapat membantu Anda dengan lebih baik jika terjadi masalah tingkat workload.

Menggunakan NCCL/gIB

Untuk menjalankan pengujian NCCL/gIB di cluster Anda, pilih halaman dari daftar berikut yang paling sesuai dengan persyaratan Anda:

Untuk mempelajari cara mengatasi masalah apa pun pada cluster setelah Anda menjalankan pengujian, lihat Mengumpulkan dan memahami log NCCL/gIB untuk pemecahan masalah.