Memecahkan masalah alur kerja Cloud TPU

Setelah workload pelatihan atau inferensi Anda berjalan di TPU, langkah berikutnya adalah memastikan workload Anda berfungsi seperti yang diharapkan. Cloud TPU membuat metrik dan log yang memungkinkan Anda mencari dan men-debug VM TPU yang tidak berfungsi seperti yang diharapkan. Kami menyebut VM tersebut sebagai pencilan di seluruh dokumentasi ini.

Alur kerja pemecahan masalah umum adalah:

  1. Melihat metrik Cloud TPU untuk memeriksa VM TPU yang tidak normal
  2. Melihat log Cloud TPU untuk VM TPU pencilan
  3. Membuat profil workload Anda

Anda dapat melihat metrik dan log di Metrics Explorer dan Logs Explorer di konsol Google Cloud. Anda juga dapat menggunakan dasbor pemantauan dan logging untuk mengumpulkan semua metrik dan log terkait Cloud TPU dalam dasbor individual.

Metrik VM Cloud TPU

Cloud Monitoring otomatis mengumpulkan metrik dari TPU dan VM Compute Engine host-nya. Metrik melacak jumlah numerik dari waktu ke waktu, misalnya, pemanfaatan CPU, penggunaan jaringan, atau durasi tidak ada aktivitas TensorCore. Untuk mengetahui informasi selengkapnya tentang metrik Cloud TPU, lihat Memantau VM TPU.

Log Cloud TPU

Cloud Logging otomatis mengumpulkan log dari TPU dan VM Compute Engine host-nya. Cloud Logging melacak peristiwa yang dihasilkan oleh Cloud TPU. Anda juga dapat melengkapi kode untuk membuat log. Dua jenis log dibuat oleh Cloud TPU:

  • Log TPU Worker
  • Log resource yang diaudit

Log Pekerja TPU berisi informasi tentang pekerja TPU tertentu di zona tertentu, misalnya jumlah memori yang tersedia di pekerja TPU (system_available_memory_GiB).

Log Resource yang Diaudit berisi informasi tentang kapan Cloud TPU API tertentu dipanggil dan siapa yang melakukan panggilan tersebut. Misalnya, CreateNode, UpdateNode, dan DeleteNode.

Anda juga dapat menggunakan paket PyPi cloud-tpu-diagnostics untuk menulis rekaman aktivitas stack ke log. Untuk mengetahui informasi selengkapnya, lihat Proses debug VM TPU.

Untuk mengetahui informasi selengkapnya tentang log, lihat Logging.

Dasbor pemantauan dan logging

Dengan satu halaman di konsol Google Cloud , Anda dapat melihat dan menafsirkan metrik dan log terkait Cloud TPU dengan lebih mudah. Repositori GitHub monitoring-debugging berisi serangkaian skrip dan file konfigurasi yang menggunakan Terraform untuk men-deploy dasbor secara otomatis yang berisi semua metrik dan log terkait Cloud TPU dalam dasbor. Untuk menyiapkan dasbor ini di project Google Cloud Anda, lihat Dasbor Monitoring dan Logging.

Membuat profil workload Anda di VM TPU

Pembuatan profil memungkinkan Anda mengoptimalkan performa pelatihan model di VM TPU. Anda menggunakan TensorBoard dan plugin TPU TensorBoard untuk membuat profil model Anda. Untuk mengetahui informasi selengkapnya tentang cara memprofilkan beban kerja Anda, lihat Membuat profil model Anda di VM TPU.

Untuk mengetahui informasi selengkapnya tentang cara menggunakan TensorBoard dengan salah satu framework yang didukung, lihat dokumen berikut: