Halaman ini menjelaskan masalah umum yang mungkin Anda alami saat menjalankan VM atau cluster yang dioptimalkan untuk AI. Untuk masalah terkait VM Compute Engine, lihat Masalah umum Compute Engine.
Masalah
Bagian berikut mencantumkan masalah umum dan solusi untuk AI Hypercomputer.
Gangguan workload pada VM A4 karena masalah firmware untuk GPU NVIDIA B200
NVIDIA telah mengidentifikasi dua masalah firmware untuk GPU B200, yang digunakan oleh VM A4, yang menyebabkan gangguan beban kerja. Khususnya, jika Anda melihat gangguan workload pada VM A4, periksa apakah salah satu hal berikut benar:
- Uptime VM
(kolom
lastStartTimestamp) melebihi 65 hari. - Log menampilkan pesan
Xid 149yang menyebutkan0x02a.
Untuk mengurangi masalah ini, sebaiknya reset GPU Anda. Untuk membantu mencegah masalah ini, sebaiknya reset GPU di VM A4 setidaknya sekali setiap 60 hari.
Catatan: Jika berjalan di GKE, Anda dapat menggunakan gpu-reset-tool untuk mereset GPU. Alat ini mengotomatiskan proses reset dan hanya memerlukan nama node target.
Server metadata mungkin menampilkan metadata VM physicalHost lama
Setelah mengalami
error host atau
menggunakan
API pelaporan host yang rusak untuk
memindahkan instance ke host baru, saat Anda
mengirim kueri ke server metadata,
server tersebut mungkin menampilkan
metadata physicalHost dari host sebelumnya instance.
Untuk mengatasi masalah ini, lakukan salah satu langkah berikut:
- Gunakan metode
instances.getatau perintahgcloud compute instances describeuntuk mengambil informasiphysicalHostyang benar. - Hentikan, lalu mulai instance Anda. Proses ini memperbarui informasi
physicalHostdi server metadata. - Tunggu 24 jam hingga informasi
physicalHostinstance yang terpengaruh diperbarui.