Google menggunakan teknologi AI untuk menerjemahkan konten ke dalam bahasa pilihan Anda. Terjemahan AI mungkin mengandung kesalahan.

Mengelola peristiwa pemeliharaan untuk TPU dalam mode kapasitas terkelola

VM TPU adalah instance VM Compute Engine dengan hardware TPU terlampir. VM Compute Engine tunduk pada peristiwa pemeliharaan VM Compute Engine. Setiap TPU terhubung ke VM Compute Engine, sehingga penggunaan lebih banyak TPU (misalnya, dalam slice TPU) akan meningkatkan kemungkinan salah satu VM Anda mengalami peristiwa pemeliharaan.

Dokumen ini membahas pendekatan untuk menangani peristiwa pemeliharaan untuk tugas pelatihan yang berjalan lama di TPU. Untuk mengetahui informasi tentang cara menangani peristiwa pemeliharaan untuk TPU di Google Kubernetes Engine (GKE), lihat Mengelola gangguan node GKE untuk GPU dan TPU.

Melihat notifikasi untuk pemeliharaan mendatang

Dengan memantau periode pemeliharaan mendatang instance, Anda dapat secara proaktif menyiapkan workload untuk menangani pemeliharaan mendatang dengan gangguan minimal. Untuk mengetahui informasi selengkapnya, lihat Memantau dan merencanakan peristiwa pemeliharaan host dalam dokumentasi Compute Engine.

Menggunakan pos pemeriksaan untuk pemulihan cepat dari peristiwa pemeliharaan

Pos pemeriksaan adalah kunci untuk pemulihan singkat dari peristiwa pemeliharaan dan harus sering disimpan. Sebaiknya simpan pos pemeriksaan setiap jam. Jika tidak sering membuat pos pemeriksaan, Anda berisiko kehilangan banyak progres pelatihan karena peristiwa pemeliharaan atau gangguan pelatihan lainnya.

Pos pemeriksaan umumnya mengacu pada semua parameter tersimpan yang digunakan dalam pelatihan, seperti bobot model. Waktu yang diperlukan untuk menyimpan pos pemeriksaan dapat berkisar dari detik hingga menit.

Meskipun TPU sering kali pulih secara otomatis dari peristiwa pemeliharaan, ada kasus ekstrem saat tugas tidak dimulai ulang secara otomatis. Jika hal ini terjadi, Anda harus menghapus dan membuat ulang resource TPU serta memulai ulang tugas pelatihan dari pos pemeriksaan yang disimpan.

Ada mekanisme yang berbeda untuk menyimpan dan memuat pos pemeriksaan untuk setiap framework ML. Model Cloud TPU yang didukung umumnya memiliki pos pemeriksaan bawaan. Untuk mengetahui informasi selengkapnya tentang pos pemeriksaan, lihat dokumentasi berikut:

Mendeteksi peristiwa pemeliharaan

Untuk mendeteksi apakah dan kapan peristiwa pemeliharaan terjadi di TPU Anda, periksa log audit peristiwa sistem di Cloud Logging. Untuk mengetahui informasi selengkapnya, lihat Melihat log peristiwa pemeliharaan.

Anda juga dapat memeriksa peristiwa pemeliharaan mendatang menggunakan perintah gcloud compute instances describe. Untuk mengetahui informasi selengkapnya, lihat Memantau dan merencanakan peristiwa pemeliharaan host dalam dokumentasi Compute Engine.

Melihat log peristiwa pemeliharaan

Anda dapat melihat log historis peristiwa pemeliharaan di TPU Anda dalam log audit peristiwa sistem.

Di menu navigasi Google Cloud konsol, buka halaman Logs Explorer:

Buka Logs Explorer
Gunakan kueri penelusuran berikut untuk melihat VM TPU yang telah dihentikan untuk pemeliharaan:

"compute.instances.terminateOnHostMaintenance"

Hasilnya akan menampilkan log untuk gangguan dan perbaikan pekerja TPU Anda dalam jangka waktu penelusuran. Log tersebut mencakup:
- Tanggal dan waktu peristiwa
- Jenis peristiwa
- Alasan penghentian di kolom protoPayload.metadata.terminateReason

Memulai pemeliharaan secara manual

Anda dapat memulai peristiwa pemeliharaan host yang tertunda di VM TPU secara manual untuk menangani pemeliharaan mendatang secara proaktif dengan gangguan minimal. Untuk mengetahui informasi selengkapnya, lihat Memulai peristiwa pemeliharaan host secara manual dalam dokumentasi Compute Engine.