Memecahkan masalah alur kerja Cloud TPU
Setelah workload pelatihan atau inferensi Anda berjalan di TPU, langkah berikutnya adalah memastikan workload Anda berfungsi seperti yang diharapkan. Cloud TPU menghasilkan metrik dan log yang memungkinkan Anda mencari dan men-debug VM TPU yang tidak berperilaku seperti yang diharapkan. Kami menyebut VM tersebut sebagai pencilan di seluruh dokumentasi ini.
Alur kerja pemecahan masalah umum adalah:
- Melihat metrik Cloud TPU untuk memeriksa VM TPU pencilan
- Melihat log Cloud TPU untuk VM TPU pencilan
- Membuat profil workload Anda
Anda dapat melihat metrik dan log di Metrics Explorer dan Logs Explorer di Google Cloud konsol. Anda juga dapat menggunakan dasbor pemantauan dan logging untuk mengumpulkan semua metrik dan log terkait Cloud TPU di dasbor individual.
Metrik VM Cloud TPU
Cloud Monitoring otomatis mengumpulkan metrik dari TPU Anda dan VM Compute Engine host-nya. Metrik melacak kuantitas numerik dari waktu ke waktu, misalnya, pemakaian CPU, penggunaan jaringan, atau durasi tidak ada aktivitas TensorCore. Untuk mengetahui informasi selengkapnya tentang metrik Cloud TPU, lihat Memantau VM TPU.
Log Cloud TPU
Cloud Logging otomatis mengumpulkan log dari TPU Anda dan VM Compute Engine host-nya. Cloud Logging melacak peristiwa yang dihasilkan oleh Cloud TPU. Anda juga dapat melengkapi kode untuk menghasilkan log. Dua jenis log dihasilkan oleh Cloud TPU:
- Log pekerja TPU
- Log resource yang diaudit
Log pekerja TPU berisi informasi tentang pekerja TPU tertentu di zona tertentu, misalnya jumlah memori yang tersedia di pekerja TPU (system_available_memory_GiB).
Log Resource yang Diaudit berisi informasi tentang kapan Cloud TPU API tertentu dipanggil dan siapa yang melakukan panggilan. Misalnya CreateNode, UpdateNode, dan DeleteNode.
Anda juga dapat menggunakan paket PyPi cloud-tpu-diagnostics untuk menulis pelacakan stack ke log. Untuk mengetahui informasi selengkapnya, lihat Men-debug TPU
VM.
Untuk mengetahui informasi selengkapnya tentang log, lihat Logging.
Metrik kesehatan Cloud TPU
Pemantauan kesehatan Cloud TPU memberikan informasi real-time tentang status kesehatan VM dan slice. Dengan menggunakan konsol Cloud Monitoring atau LibTPU Monitoring Library, Anda dapat mengidentifikasi kegagalan hardware saat terjadi. Hal ini memungkinkan Anda mengalokasikan ulang resource untuk menghindari kegagalan tugas lengkap dan meminimalkan penurunan performa.
Untuk mengetahui informasi selengkapnya, lihat Pemantauan kesehatan TPU.
Dasbor pemantauan dan logging
Memiliki satu halaman di Google Cloud konsol dapat memudahkan Anda melihat dan menafsirkan metrik dan log terkait Cloud TPU. Repositori GitHub cloud-tpu-monitoring-debugging berisi kumpulan skrip dan file konfigurasi yang menggunakan Terraform untuk otomatis men-deploy dasbor yang berisi semua metrik dan log terkait Cloud TPU di dasbor. Untuk menyiapkan dasbor ini di project Google Cloud Anda, lihat Dasbor Pemantauan dan Logging.
Membuat profil workload Anda di VM TPU
Pembuatan profil memungkinkan Anda mengoptimalkan performa pelatihan model di VM TPU. Anda menggunakan TensorBoard dan plug-in TensorBoard TPU untuk membuat profil model. Untuk mengetahui informasi selengkapnya tentang cara membuat profil workload, lihat Membuat profil model di VM TPU.
Untuk mengetahui informasi selengkapnya tentang cara menggunakan TensorBoard dengan salah satu framework yang didukung, lihat dokumen berikut:
Kegagalan booting VM dengan image kustom
Jika VM gagal melakukan booting setelah penyesuaian, tinjau output konsol serial
menggunakan konsol atau gcloud compute instances
get-serial-port-output. Google Cloud Ini adalah sumber informasi utama untuk diagnosis. Karena Anda tidak dapat memperbaiki disk secara offline, Anda harus membuat ulang resource TPU setelah memperbaiki masalah dalam skrip startup atau sumber image kustom.
Untuk mengetahui informasi selengkapnya tentang cara menyesuaikan disk booting VM Cloud TPU, lihat Disk booting VM TPU.