Dokumen ini membahas cara meminimalkan gangguan pada workload GPU Anda selama peristiwa pemeliharaan.
Untuk mempelajari cara memantau, merencanakan, dan melakukan pemeliharaan terjadwal pada instance virtual machine (VM) dengan Cluster Director, lihat Mengelola peristiwa host di seluruh VM.
Saat Compute Engine melakukan pemeliharaan pada virtual machine (VM) dengan unit pemrosesan grafis (GPU) terpasang, VM harus dihentikan. Hal ini karena VM dengan GPU yang terpasang tidak dapat dimigrasikan langsung.
Anda harus menetapkan VM ini ke berhenti untuk peristiwa pemeliharaan host. Anda dapat menetapkan VM yang dihentikan untuk memulai ulang secara otomatis setelah peristiwa pemeliharaan selesai.
Peristiwa pemeliharaan host biasanya terjadi dua minggu sekali, tetapi terkadang bisa berjalan lebih sering.
Menerima pemberitahuan awal sebelum peristiwa pemeliharaan
Anda dapat memantau jadwal pemeliharaan untuk instance virtual machine (VM) dan menyiapkan workload untuk bertransisi melalui mulai ulang sistem.
Untuk menerima pemberitahuan awal tentang peristiwa host, pantau nilai metadata /computeMetadata/v1/instance/maintenance-event.
Jika permintaan ke server metadata menampilkan NONE, VM tidak
dijadwalkan untuk berhenti. Misalnya, jalankan perintah berikut dari dalam VM:
curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"
NONEJika server metadata menampilkan TERMINATE_ON_HOST_MAINTENANCE, VM Anda akan dijadwalkan untuk berhenti. Compute Engine memberi VM GPU pemberitahuan berhenti 1 jam, sedangkan VM normal hanya menerima pemberitahuan 60 detik.
Gunakan pemberitahuan ini untuk mengonfigurasi aplikasi Anda agar bertransisi melalui peristiwa pemeliharaan host. Misalnya, lihat Memigrasikan data sementara Anda dari disk SSD Lokal dalam dokumen ini.
Memigrasikan data sementara Anda dari disk SSD Lokal
Karena ketahanan data SSD Lokal, data pada disk SSD Lokal yang terpasang ke VM tidak dapat dipulihkan setiap kali Compute Engine menghentikan VM untuk peristiwa pemeliharaan host. Jika Anda ingin membantu mencegah kehilangan data, konfigurasi workload Anda untuk memigrasikan data dari disk SSD Lokal sebelum VM dihentikan. Misalnya, Anda dapat menggunakan salah satu teknik berikut:
Konfigurasikan aplikasi Anda untuk memindahkan sementara pekerjaan yang sedang berlangsung ke bucket Cloud Storage, lalu ambil data tersebut setelah VM dimulai ulang.
Menulis data ke Persistent Disk sekunder. Saat VM dimulai ulang secara otomatis, Persistent Disk dapat dipasang kembali dan aplikasi Anda dapat melanjutkan pekerjaan.
Apa langkah selanjutnya?
- Pelajari platform GPU lebih lanjut.
- Untuk mempelajari lebih lanjut cara mengelola dan menskalakan grup VM, lihat artikel Menetapkan ukuran target grup.
- Untuk memantau performa GPU, lihat Memantau performa GPU.
- Untuk meningkatkan performa jaringan, lihat Menggunakan bandwidth jaringan yang lebih tinggi.
- Pelajari cara memecahkan masalah penonaktifan dan reboot VM.