Memecahkan masalah performa lambat

Dokumen ini menjelaskan cara memecahkan masalah performa lambat yang telah Anda identifikasi untuk workload yang berjalan di VM atau cluster yang dioptimalkan untuk AI.

Untuk mempelajari cara mengidentifikasi performa yang lambat, lihat Memantau instance Compute Engine dan cluster Slurm.

  1. Identifikasi dan atasi semua straggler yang dicurigai untuk workload Anda: Selesaikan langkah-langkah berikut:

    1. Periksa apakah Anda dapat menggunakan deteksi lambat untuk beban kerja Anda. Untuk meninjau batasan dan persyaratan penggunaan deteksi keterlambatan, lihat Memantau instance Compute Engine dan cluster Slurm.

      Jika Anda tidak dapat menggunakan deteksi keterlambatan, gunakan opsi lain untuk memecahkan masalah performa lambat.

    2. Untuk memeriksa apakah ada VM untuk workload Anda yang dicurigai sebagai VM lambat, lihat metrik deteksi VM lambat.

      Misalnya, untuk memvisualisasikan semua straggler yang dicurigai untuk project Anda di Cloud Monitoring, selesaikan langkah-langkah berikut:

      1. Di konsol Google Cloud , buka halaman  Dasbor:

        Buka Dasbor

        Jika Anda menggunakan kotak penelusuran untuk menemukan halaman ini, pilih hasil yang subjudulnya adalah Monitoring.

      2. Di bagian Type pada panel filter, klik Google Services.

      3. Di kolom Name, klik Cluster Director Health Monitoring.

        Halaman detail dasbor akan terbuka.

      4. Gunakan pemilih rentang waktu di toolbar untuk memilih rentang waktu performa lambat. Deteksi keterlambatan biasanya memerlukan waktu hingga 10 menit untuk melaporkan keterlambatan.

      5. Untuk memeriksa apakah ada VM untuk workload Anda yang dicurigai sebagai VM lambat, tinjau bagian Deteksi VM Lambat. Gunakan kueri ini untuk melihat apakah tabel Suspected Straggler Instances mencantumkan VM untuk workload Anda.

    3. Berdasarkan jumlah VM untuk workload Anda yang diduga tertinggal, lanjutkan sebagai berikut:

  2. Gunakan opsi lain untuk memecahkan masalah performa lambat: Jika daftar VM yang diduga lambat yang dilaporkan banyak atau jika menghapus VM yang dilaporkan lambat tidak memulihkan performa, gunakan opsi lain untuk memecahkan masalah performa lambat, seperti berikut: