Masalah umum

Halaman ini menjelaskan masalah umum yang mungkin Anda alami saat menjalankan VM atau cluster yang dioptimalkan untuk AI. Untuk masalah terkait VM Compute Engine, lihat Masalah umum Compute Engine.

Masalah

Bagian berikut mencantumkan masalah umum dan solusi untuk AI Hypercomputer.

Gangguan workload pada VM A4 karena masalah firmware untuk GPU NVIDIA B200

NVIDIA telah mengidentifikasi dua masalah firmware untuk GPU B200, yang digunakan oleh VM A4, yang menyebabkan gangguan beban kerja. Khususnya, jika Anda melihat gangguan workload pada VM A4, periksa apakah salah satu hal berikut benar:

Untuk mengurangi masalah ini, sebaiknya reset GPU Anda. Untuk membantu mencegah masalah ini, sebaiknya reset GPU di VM A4 setidaknya sekali setiap 60 hari.

Catatan: Jika berjalan di GKE, Anda dapat menggunakan gpu-reset-tool untuk mereset GPU. Alat ini mengotomatiskan proses reset dan hanya memerlukan nama node target.

Server metadata mungkin menampilkan metadata VM physicalHost lama

Setelah mengalami error host atau menggunakan API pelaporan host yang rusak untuk memindahkan instance ke host baru, saat Anda mengirim kueri ke server metadata, server tersebut mungkin menampilkan metadata physicalHost dari host sebelumnya instance.

Untuk mengatasi masalah ini, lakukan salah satu langkah berikut: