Halaman ini menjelaskan masalah umum yang mungkin Anda alami saat menjalankan VM atau cluster yang dioptimalkan untuk AI. Untuk masalah terkait VM Compute Engine, lihat Masalah umum Compute Engine.
Masalah
Bagian berikut mencantumkan masalah umum dan solusinya untuk AI Hypercomputer.
Gangguan workload pada VM A4 karena masalah firmware untuk GPU NVIDIA B200
NVIDIA telah mengidentifikasi dua masalah firmware untuk GPU B200, yang digunakan oleh VM A4, yang menyebabkan gangguan workload. Secara khusus, jika Anda melihat gangguan workload pada VM A4, periksa apakah salah satu hal berikut benar:
- Waktu aktif VM (kolom
lastStartTimestamp) melebihi 65 hari. - Log menampilkan pesan
Xid 149yang menyebutkan0x02a.
Untuk mengurangi masalah ini, sebaiknya reset GPU Anda. Untuk membantu mencegah masalah ini, sebaiknya reset GPU pada VM A4 setidaknya sekali setiap 60 hari.
Server metadata mungkin menampilkan metadata VM physicalHost lama
Setelah mengalami error host
atau
menggunakan
report faulty host API untuk
memindahkan instance komputasi ke host baru, saat Anda
membuat kueri server metadata,
server tersebut mungkin menampilkan metadata physicalHost dari host sebelumnya untuk instance komputasi.
Untuk mengatasi masalah ini, lakukan salah satu tindakan berikut:
- Gunakan metode
instances.getatau perintahgcloud compute instances describeuntuk mengambil informasiphysicalHostyang benar. - Hentikan, lalu mulai instance
Anda. Proses ini memperbarui informasi
physicalHostdi server metadata. - Tunggu 24 jam hingga informasi
physicalHostinstance yang terpengaruh diperbarui.