Mengelola peristiwa pemeliharaan untuk TPU dalam mode kapasitas terkelola
VM TPU adalah instance VM Compute Engine dengan hardware TPU terpasang. VM Compute Engine tunduk pada peristiwa pemeliharaan VM Compute Engine. Setiap TPU terhubung ke VM Compute Engine, sehingga penggunaan lebih banyak TPU (misalnya, dalam slice TPU) meningkatkan kemungkinan salah satu VM Anda mengalami peristiwa pemeliharaan.
Dokumen ini membahas pendekatan untuk menangani peristiwa pemeliharaan untuk tugas pelatihan yang berjalan lama di TPU. Untuk mengetahui informasi tentang cara menangani peristiwa pemeliharaan TPU di Google Kubernetes Engine (GKE), lihat Mengelola gangguan node GKE untuk GPU dan TPU.
Melihat notifikasi untuk pemeliharaan mendatang
Dengan memantau periode pemeliharaan mendatang instance, Anda dapat secara proaktif menyiapkan workload untuk menangani pemeliharaan mendatang dengan gangguan minimal. Untuk mengetahui informasi selengkapnya, lihat Memantau dan merencanakan peristiwa pemeliharaan host dalam dokumentasi Compute Engine.
Menggunakan titik pemeriksaan untuk pemulihan cepat dari peristiwa pemeliharaan
Titik pemeriksaan adalah kunci untuk pemulihan singkat dari peristiwa pemeliharaan dan harus disimpan secara berkala. Sebaiknya simpan checkpoint setiap jam. Tidak membuat checkpoint yang cukup sering berisiko kehilangan banyak progres pelatihan karena peristiwa pemeliharaan atau gangguan pelatihan lainnya.
Checkpoint umumnya mengacu pada semua parameter tersimpan yang digunakan dalam pelatihan, seperti bobot model. Waktu yang diperlukan untuk menyimpan checkpoint dapat berkisar dari detik hingga menit.
Meskipun TPU sering kali pulih secara otomatis dari peristiwa pemeliharaan, ada kasus ekstrem saat tugas tidak dimulai ulang secara otomatis. Jika hal ini terjadi, Anda perlu menghapus dan membuat ulang resource TPU serta memulai ulang tugas pelatihan dari checkpoint yang disimpan. Untuk mengetahui informasi tentang cara mendeteksi dan memulihkan dari kegagalan pemulihan otomatis, lihat Mendeteksi dan memulihkan dari kegagalan TPU.
Ada mekanisme yang berbeda untuk menyimpan dan memuat titik pemeriksaan untuk setiap framework ML. Model Cloud TPU yang didukung umumnya memiliki checkpointing bawaan. Untuk mengetahui informasi selengkapnya tentang pembuatan titik pemeriksaan, lihat dokumentasi berikut:
Mendeteksi peristiwa pemeliharaan
Untuk mendeteksi apakah dan kapan peristiwa pemeliharaan terjadi di TPU Anda, periksa log audit peristiwa sistem di Cloud Logging. Untuk mengetahui informasi selengkapnya, lihat Melihat log peristiwa pemeliharaan.
Anda juga dapat memeriksa peristiwa pemeliharaan mendatang menggunakan perintah gcloud compute
instances describe.
Untuk mengetahui informasi selengkapnya, lihat Memantau dan merencanakan peristiwa pemeliharaan host dalam dokumentasi Compute Engine.
Melihat log peristiwa pemeliharaan
Anda dapat melihat log historis peristiwa pemeliharaan di TPU Anda dalam log audit peristiwa sistem.
Di menu navigasi konsol Google Cloud , buka halaman Logs Explorer:
Gunakan kueri penelusuran berikut untuk melihat VM TPU yang telah dihentikan karena pemeliharaan:
"compute.instances.terminateOnHostMaintenance"Hasilnya menampilkan log untuk setiap gangguan dan perbaikan pekerja TPU dalam jangka waktu penelusuran Anda. Log tersebut mencakup:
- Tanggal dan waktu acara
- Jenis peristiwa
- Alasan penghentian di kolom
protoPayload.metadata.terminateReason
Memulai pemeliharaan secara manual
Anda dapat memulai peristiwa pemeliharaan host yang tertunda secara manual di VM TPU untuk menangani pemeliharaan mendatang secara proaktif dengan gangguan minimal. Untuk mengetahui informasi selengkapnya, lihat Memulai peristiwa pemeliharaan host secara manual dalam dokumentasi Compute Engine.
Langkah berikutnya
- Memantau dan merencanakan peristiwa pemeliharaan host
- Memulai peristiwa pemeliharaan host secara manual