Dokumen ini menjelaskan cara memecahkan masalah performa lambat yang telah Anda identifikasi untuk workload yang berjalan di VM atau cluster yang dioptimalkan untuk AI.
Untuk mempelajari cara mengidentifikasi performa yang lambat, lihat Memantau instance Compute Engine dan cluster Slurm.
Identifikasi dan atasi semua straggler yang dicurigai untuk workload Anda: Selesaikan langkah-langkah berikut:
Periksa apakah Anda dapat menggunakan deteksi lambat untuk beban kerja Anda. Untuk meninjau batasan dan persyaratan penggunaan deteksi keterlambatan, lihat Memantau instance Compute Engine dan cluster Slurm.
Jika Anda tidak dapat menggunakan deteksi keterlambatan, gunakan opsi lain untuk memecahkan masalah performa lambat.
Untuk memeriksa apakah ada VM untuk workload Anda yang dicurigai sebagai VM lambat, lihat metrik deteksi VM lambat.
Misalnya, untuk memvisualisasikan semua straggler yang dicurigai untuk project Anda di Cloud Monitoring, selesaikan langkah-langkah berikut:
-
Di konsol Google Cloud , buka halaman Dasbor:
Jika Anda menggunakan kotak penelusuran untuk menemukan halaman ini, pilih hasil yang subjudulnya adalah Monitoring.
Di bagian Type pada panel filter, klik Google Services.
Di kolom Name, klik Cluster Director Health Monitoring.
Halaman detail dasbor akan terbuka.
Gunakan pemilih rentang waktu di toolbar untuk memilih rentang waktu performa lambat. Deteksi keterlambatan biasanya memerlukan waktu hingga 10 menit untuk melaporkan keterlambatan.
Untuk memeriksa apakah ada VM untuk workload Anda yang dicurigai sebagai VM lambat, tinjau bagian Deteksi VM Lambat. Gunakan kueri ini untuk melihat apakah tabel Suspected Straggler Instances mencantumkan VM untuk workload Anda.
-
Berdasarkan jumlah VM untuk workload Anda yang diduga tertinggal, lanjutkan sebagai berikut:
Jika tidak ada VM yang dicurigai sebagai VM yang tertinggal, verifikasi apakah deteksi VM yang tertinggal berjalan dengan benar. Untuk memverifikasi apakah layanan deteksi keterlambatan berjalan untuk project Anda, ikuti petunjuk untuk melihat log deteksi keterlambatan dan tentukan kueri untuk semua log deteksi keterlambatan di project Anda. Kemudian, lanjutkan sebagai berikut:
Jika project Anda tidak memiliki log deteksi sisa tugas saat VM berjalan setidaknya selama 10 menit, maka layanan deteksi sisa tugas tidak berjalan untuk project Anda. Untuk mengatasi masalah ini, hubungi Cloud Customer Care atau coba lagi nanti.
Jika tidak, jika Anda telah memverifikasi bahwa deteksi keterlambatan berjalan untuk project Anda dan beban kerja Anda mendukung deteksi keterlambatan, performa yang lambat mungkin disebabkan oleh masalah lain. Gunakan opsi lain untuk memecahkan masalah performa yang lambat.
Jika sejumlah kecil VM dalam workload Anda dilaporkan sebagai kemungkinan VM yang lambat, uji migrasi workload Anda dari VM yang dicurigai. Kemudian, lanjutkan sebagai berikut:
Jika migrasi memulihkan performa untuk workload Anda, maka VM yang dicurigai mungkin rusak. Untuk setiap VM ini, ikuti langkah-langkah untuk melaporkan host yang rusak, dan tetapkan
FAULT_REASONkePERFORMANCEserta tetapkanDESCRIPTIONkestraggler node.Jika migrasi tidak memulihkan performa, mungkin ada lebih banyak VM lambat yang dicurigai atau performa lambat mungkin disebabkan oleh masalah lain. Anda dapat memeriksa apakah ada VM lain untuk workload Anda yang diduga tertinggal atau menggunakan opsi lain untuk memecahkan masalah performa lambat.
Jika sejumlah besar VM dalam workload Anda dilaporkan sebagai kemungkinan VM yang lambat, maka gunakan opsi lain untuk memecahkan masalah performa yang lambat.
Gunakan opsi lain untuk memecahkan masalah performa lambat: Jika daftar VM yang diduga lambat yang dilaporkan banyak atau jika menghapus VM yang dilaporkan lambat tidak memulihkan performa, gunakan opsi lain untuk memecahkan masalah performa lambat, seperti berikut:
- Uji cluster menggunakan pemindai kesehatan cluster.
- Tinjau metrik lain untuk performa.
- Tinjau dokumentasi pemecahan masalah lainnya. Misalnya, lihat Memecahkan masalah VM GPU dalam dokumentasi Compute Engine.