Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Menangani peristiwa pemeliharaan host GPU

Dokumen ini membahas cara meminimalkan gangguan pada workload GPU Anda selama peristiwa pemeliharaan.

Saat Compute Engine melakukan pemeliharaan pada instance Compute Engine dengan unit pemrosesan grafis (GPU) terpasang, instance komputasi harus dihentikan. Hal ini karena instance komputasi dengan GPU yang terpasang tidak dapat dimigrasikan langsung.

Anda harus menyetel instance komputasi ini ke berhenti untuk peristiwa pemeliharaan host. Anda dapat menetapkan instance komputasi yang dihentikan untuk memulai ulang secara otomatis setelah peristiwa pemeliharaan selesai.

Peristiwa pemeliharaan host biasanya terjadi sekali setiap dua minggu, tetapi terkadang dapat berjalan lebih sering. Instance Compute dengan GPU yang terpasang dapat memerlukan waktu hingga satu jam untuk dihentikan setelah kegagalan atau error host.

Menerima pemberitahuan awal sebelum peristiwa pemeliharaan

Anda dapat memantau jadwal pemeliharaan untuk instance Compute Engine, dan menyiapkan workload untuk bertransisi melalui mulai ulang sistem.

Untuk menerima pemberitahuan awal tentang peristiwa host, pantau nilai metadata /computeMetadata/v1/instance/maintenance-event. Jika permintaan ke server metadata menampilkan NONE, instance komputasi tidak dijadwalkan untuk berhenti. Misalnya, jalankan perintah berikut dari dalam instance compute:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Jika server metadata menampilkan TERMINATE_ON_HOST_MAINTENANCE, instance komputasi Anda dijadwalkan untuk berhenti. Untuk instance komputasi yang memiliki GPU terpasang, Compute Engine memberikan pemberitahuan ini 1 jam sebelum instance komputasi berhenti.

Untuk beberapa seri mesin GPU, seperti A3, Compute Engine memberikan pemberitahuan tentang pemeliharaan mendatang lebih dari satu jam sebelumnya melalui atribut metadata upcoming-maintenance. Untuk mempelajari lebih lanjut, lihat Memantau dan merencanakan peristiwa pemeliharaan host.

Konfigurasi aplikasi Anda untuk bertransisi melalui peristiwa pemeliharaan. Misalnya, Anda dapat menggunakan salah satu teknik berikut:

Gunakan pemberitahuan ini untuk mengonfigurasi aplikasi Anda agar bertransisi melalui peristiwa pemeliharaan host. Misalnya, lihat Memigrasikan data sementara Anda dari disk SSD Lokal dalam dokumen ini.

Memigrasikan data sementara Anda dari disk SSD Lokal

Karena ketahanan data SSD Lokal, data di disk SSD Lokal yang terpasang ke instance komputasi tidak dapat dipulihkan setiap kali Compute Engine menghentikan instance komputasi untuk peristiwa pemeliharaan host. Jika Anda ingin membantu mencegah kehilangan data, konfigurasi beban kerja Anda untuk memigrasikan data dari disk SSD Lokal sebelum instance komputasi dihentikan. Misalnya, Anda dapat menggunakan salah satu teknik berikut:

Konfigurasikan aplikasi Anda untuk memindahkan sementara pekerjaan yang sedang berlangsung ke bucket Cloud Storage, lalu ambil data tersebut setelah instance komputasi dimulai ulang.
Menulis data ke Persistent Disk sekunder. Saat instance komputasi dimulai ulang secara otomatis, Persistent Disk dapat dipasang kembali dan aplikasi Anda dapat melanjutkan pekerjaan.

Apa langkah selanjutnya?

Pelajari platform GPU lebih lanjut.
Untuk mempelajari lebih lanjut cara mengelola dan menskalakan grup instance komputasi, lihat artikel Menetapkan ukuran target grup.
Untuk memantau performa GPU, lihat Memantau performa GPU.
Untuk meningkatkan performa jaringan, lihat Menggunakan bandwidth jaringan yang lebih tinggi.
Pelajari cara memecahkan masalah penonaktifan dan reboot VM.