Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Memecahkan masalah performa lambat

Dokumen ini menjelaskan cara memecahkan masalah performa lambat yang telah Anda identifikasi untuk workload yang berjalan di VM atau cluster yang dioptimalkan AI.

Untuk mempelajari cara mengidentifikasi performa lambat, lihat Memantau instance Compute Engine dan cluster Slurm.

Mengidentifikasi dan mengatasi dugaan straggler untuk workload Anda: Selesaikan langkah-langkah berikut:
1. Periksa apakah Anda dapat menggunakan deteksi straggler untuk workload Anda. Untuk meninjau batasan dan persyaratan penggunaan deteksi straggler, lihat Memantau instance Compute Engine dan cluster Slurm.
  
  Jika Anda tidak dapat menggunakan deteksi straggler, maka gunakan opsi lain untuk memecahkan masalah performa lambat.
2. Untuk memeriksa apakah ada VM untuk workload Anda yang diduga straggler, lihat metrik deteksi straggler.
  
  Misalnya, untuk memvisualisasikan semua dugaan straggler untuk project Anda di Cloud Monitoring, selesaikan langkah-langkah berikut:
  Tips:Atau, jika Anda ingin memfilter dugaan straggler untuk project Anda, ikuti petunjuk untuk melihat log deteksi straggler dan tentukan kueri untuk log dengan dugaan straggler untuk VM tertentu.
  1. Di Google Cloud konsol, buka halaman Dasbor:
    Buka Dashboards
    
    Jika Anda menggunakan kotak penelusuran untuk menemukan halaman ini, pilih hasil yang subjudulnya adalah Monitoring.
  2. Di bagian Type panel filter, klik Google Services.
  3. Di kolom Name, klik Cluster Director Health Monitoring.
    
    Halaman detail untuk dasbor akan terbuka.
  4. Gunakan pemilih rentang waktu di toolbar untuk memilih rentang waktu performa lambat. Deteksi straggler biasanya memerlukan waktu hingga 10 menit untuk melaporkan straggler.
  5. Untuk memeriksa apakah ada VM untuk workload Anda yang diduga straggler, tinjau bagian Straggler Detection. Gunakan kueri ini untuk melihat apakah tabel Suspected Straggler Instances mencantumkan VM untuk workload Anda.
3. Berdasarkan jumlah VM untuk workload Anda yang diduga straggler, lanjutkan sebagai berikut:
  - Jika tidak ada VM yang diduga straggler, verifikasi apakah deteksi straggler berjalan dengan benar. Untuk memverifikasi apakah layanan deteksi straggler berjalan untuk project Anda, ikuti petunjuk untuk melihat log deteksi straggler dan tentukan kueri untuk semua log deteksi straggler di project Anda. Kemudian, lanjutkan sebagai berikut:
    - Jika project Anda tidak memiliki log deteksi straggler saat VM berjalan setidaknya selama 10 menit, layanan deteksi straggler tidak berjalan untuk project Anda. Untuk mengatasi masalah ini, hubungi Cloud Customer Care atau coba lagi nanti.
    - Jika Anda telah memverifikasi bahwa deteksi straggler berjalan untuk project Anda dan workload Anda mendukung deteksi straggler, performa lambat mungkin disebabkan oleh masalah lain. Gunakan opsi lain untuk memecahkan masalah performa lambat.
  - Jika sejumlah kecil VM dalam workload Anda dilaporkan sebagai dugaan straggler, uji migrasi workload Anda dari VM yang diduga. Kemudian, lanjutkan sebagai berikut:
    - Jika migrasi memulihkan performa untuk workload Anda, maka VM yang diduga mungkin rusak. Untuk setiap VM ini, ikuti langkah-langkah untuk melaporkan host yang rusak, dan tetapkan FAULT_REASON ke PERFORMANCE serta tetapkan DESCRIPTION ke straggler node.
    - Jika migrasi tidak memulihkan performa, mungkin ada lebih banyak VM yang diduga straggler atau performa lambat mungkin disebabkan oleh masalah lain. Anda dapat memeriksa apakah lebih banyak VM untuk workload Anda yang diduga straggler atau menggunakan opsi lain untuk memecahkan masalah performa lambat.
  - Jika sejumlah besar VM dalam workload Anda dilaporkan sebagai dugaan straggler, maka gunakan opsi lain untuk memecahkan masalah performa lambat.
Menggunakan opsi lain untuk memecahkan masalah performa lambat: Jika daftar VM yang diduga straggler yang dilaporkan besar atau jika menghapus VM straggler yang dilaporkan tidak memulihkan performa, gunakan opsi lain untuk memecahkan masalah performa lambat, seperti berikut:
- Menguji cluster menggunakan pemindai kesehatan cluster.
- Meninjau metrik lain untuk performa.
- Meninjau dokumentasi pemecahan masalah lainnya. Misalnya, lihat Memecahkan masalah VM GPU dalam dokumentasi Compute Engine.

Memecahkan masalah performa lambat Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Memecahkan masalah performa lambat