Cluster pengujian

Dokumen ini menjelaskan cara menguji masalah pada klaster GPU menggunakan alat pemindai kesehatan klaster (CHS). Jika Anda ingin menguji cluster yang dibuat di Cluster Director, lihat Memantau kondisi cluster.

Alat CHS memeriksa kondisi cluster GPU Anda, menjalankan pengujian untuk memverifikasi bahwa cluster siap menjalankan workload Anda. Anda dapat menggunakan CHS untuk melakukan pemeriksaan kondisi proaktif, atau sebagai alat diagnostik saat Anda menemui masalah dengan workload. Selain memeriksa konfigurasi cluster, Anda dapat melakukan pengujian berikut:

  • Pemeriksaan NCCL: memvalidasi komunikasi jaringan antar-GPU menggunakan NVIDIA Collective Communications Library (NCCL).
  • Pemeriksaan GPU: menggunakan alat NVIDIA Data Center GPU Manager (DCGM) untuk memeriksa kondisi setiap GPU.
  • Pemeriksaan Neper: menggunakan alat Neper untuk menilai performa jaringan dalam cluster.
  • Deteksi lambat: menjalankan pola traffic jaringan antara node yang sangat menyerupai pola yang terlihat selama paralelisme pipeline beban kerja pelatihan LLM. Pelajari lebih lanjut deteksi straggler.
  • Pemeriksaan Tinymax: menggunakan Maxtext, framework LLM open source, untuk menilai pelatihan ML dalam cluster.

Anda hanya dapat menjalankan pemeriksaan dan pengujian CHS pada node yang tidak menjalankan tugas atau workload apa pun. Jika Anda mencoba menjalankan pemeriksaan atau pengujian pada node yang sibuk, pemeriksaan atau pengujian akan gagal.

Alat CHS tersedia untuk cluster GPU yang diorkestrasi oleh Google Kubernetes Engine (GKE) atau Slurm, terlepas dari model penyediaan yang Anda gunakan untuk membuat cluster. Namun, CHS hanya tersedia untuk jenis mesin berikut:

  • A4
  • A3 Ultra
  • A3 Mega
  • A3 Tinggi

Bagian berikut menjelaskan cara menginstal CHS, lalu cara menggunakannya untuk melakukan pemeriksaan kondisi dan memeriksa konfigurasi Anda.

Menginstal CHS

Gunakan prosedur berikut untuk menginstal CHS:

  1. Buka halaman Compute Engine > VM instances.

    Buka halaman Instance VM

  2. Cari node login. File tersebut mungkin memiliki nama dengan pola DEPLOYMENT_NAME +login-001.

  3. Dari kolom Connect node login, klik SSH.

  4. Gunakan perintah berikut untuk meng-clone repositori dan berpindah ke direktori root repositori:

    git clone https://github.com/GoogleCloudPlatform/cluster-health-scanner && cd cluster-health-scanner
    
  5. Gunakan perintah berikut untuk menginstal dependensi untuk Google Cloud CLI:

    pip3 install -r cli/requirements.txt
    
  6. Opsional: agar perintah configcheck dapat mengambil nilai konfigurasi dari cluster Anda tanpa perlu melakukan autentikasi ulang untuk setiap mesin, gunakan perintah berikut untuk menambahkan kunci SSH Google Cloud CLI ke agen SSH lokal Anda:

    ssh-add ~/.ssh/google_compute_engine
    
  7. Gunakan perintah berikut untuk menambahkan alias cluster_diag untuk cluster_diag.py:

    alias cluster_diag="python3 cli/cluster_diag.py"
    

Melakukan health check

Setelah menginstal CHS, lakukan hal berikut untuk memeriksa kondisi cluster GPU Anda:

  1. Buka halaman Compute Engine > VM instances.

    Buka halaman Instance VM

  2. Cari node login. File tersebut mungkin memiliki nama dengan pola DEPLOYMENT_NAME +login-001.

  3. Dari kolom Connect node login, klik SSH.

  4. Verifikasi bahwa Anda berada di direktori root untuk repositori.

  5. Gunakan perintah berikut untuk memeriksa status cluster Anda saat ini:

    cluster_diag -o ORCHESTRATOR healthscan GPU_TYPE status
    

    Ganti kode berikut:

    • ORCHESTRATOR: gke atau slurm, bergantung pada orkestrator yang Anda gunakan.
    • GPU_TYPE: jenis mesin GPU yang Anda gunakan, yang dapat berupa salah satu nilai berikut:
      • a4-highgpu-8g
      • a3-ultragpu-8g
      • a3-megagpu-8g
      • a3-highgpu-8g
      • a3-highgpu-4g
      • a3-highgpu-2g
      • a3-highgpu-1g
  6. Gunakan perintah berikut untuk memeriksa kondisi GPU individual dalam cluster Anda:

    cluster_diag -o ORCHESTRATOR healthscan GPU_TYPE gpu
    

    Ganti kode berikut:

    • ORCHESTRATOR: gke atau slurm, bergantung pada orkestrator yang Anda gunakan.
    • GPU_TYPE: jenis mesin GPU yang Anda gunakan, yang dapat berupa salah satu nilai berikut:
      • a4-highgpu-8g
      • a3-ultragpu-8g
      • a3-megagpu-8g
      • a3-highgpu-8g
      • a3-highgpu-4g
      • a3-highgpu-2g
      • a3-highgpu-1g
  7. Opsional: gunakan perintah template berikut untuk menjalankan pemeriksaan tambahan. Pertimbangkan untuk menambahkan tanda --run_only_on_available_nodes untuk melewati node yang tidak tersedia:

    cluster_diag -o ORCHESTRATOR healthscan GPU_TYPE CHECK
    

    Ganti kode berikut:

    • ORCHESTRATOR: gke atau slurm, bergantung pada orkestrator yang Anda gunakan.
    • GPU_TYPE: jenis mesin GPU yang Anda gunakan, yang dapat berupa salah satu nilai berikut:
      • a4-highgpu-8g
      • a3-ultragpu-8g
      • a3-megagpu-8g
      • a3-highgpu-8g
      • a3-highgpu-4g
      • a3-highgpu-2g
      • a3-highgpu-1g
    • CHECK: pemeriksaan yang ingin Anda jalankan. Gunakan salah satu opsi berikut:
      • status
      • nccl
      • GPU
      • orang yang tertinggal
      • neper
      • tinymax

Periksa konfigurasi Anda

Setelah menginstal CHS, lakukan hal berikut untuk memeriksa konfigurasi cluster Anda:

  1. Verifikasi bahwa Anda berada di direktori root untuk repositori.
  2. Gunakan perintah berikut untuk memeriksa konfigurasi cluster Anda. Secara default, perintah ini menghasilkan perbedaan; untuk melewati perbedaan dan hanya mencetak konfigurasi, tambahkan tanda --no-diff:

    cluster_diag -o ORCHESTRATOR configcheck GPU_TYPE
    

    Ganti kode berikut:

    • ORCHESTRATOR: gke atau slurm, bergantung pada orkestrator yang Anda gunakan.
    • GPU_TYPE: jenis mesin GPU yang Anda gunakan, yang dapat berupa salah satu nilai berikut:
      • a4-highgpu-8g
      • a3-ultragpu-8g
      • a3-megagpu-8g
      • a3-highgpu-8g
      • a3-highgpu-4g
      • a3-highgpu-2g
      • a3-highgpu-1g

Screenshot berikut menunjukkan hasil dari pemeriksaan konfigurasi yang berhasil:

Hasil pemeriksaan konfigurasi yang berhasil.
Hasil pemeriksaan konfigurasi yang berhasil (klik untuk memperbesar).

Langkah berikutnya