Masalah umum

Halaman ini menjelaskan masalah umum yang mungkin Anda alami saat menjalankan VM atau cluster yang dioptimalkan untuk AI. Untuk masalah terkait VM Compute Engine, lihat Masalah umum Compute Engine.

Masalah

Bagian berikut mencantumkan masalah umum dan solusinya untuk AI Hypercomputer.

Gangguan workload pada VM A4 karena masalah firmware untuk GPU NVIDIA B200

NVIDIA telah mengidentifikasi dua masalah firmware untuk GPU B200, yang digunakan oleh VM A4, yang menyebabkan gangguan workload. Secara khusus, jika Anda melihat gangguan workload pada VM A4, periksa apakah salah satu hal berikut benar:

Untuk mengurangi masalah ini, sebaiknya reset GPU Anda. Untuk membantu mencegah masalah ini, sebaiknya reset GPU pada VM A4 setidaknya sekali setiap 60 hari.

Server metadata mungkin menampilkan metadata VM physicalHost lama

Setelah mengalami error host atau menggunakan report faulty host API untuk memindahkan instance komputasi ke host baru, saat Anda membuat kueri server metadata, server tersebut mungkin menampilkan metadata physicalHost dari host sebelumnya untuk instance komputasi.

Untuk mengatasi masalah ini, lakukan salah satu tindakan berikut: