Memecahkan masalah PyTorch - TPU
Panduan ini memberikan informasi pemecahan masalah untuk membantu Anda mengidentifikasi dan menyelesaikan masalah yang mungkin Anda temui saat melatih model PyTorch di Cloud TPU. Untuk panduan yang lebih umum tentang cara memulai Cloud TPU, lihat Panduan memulai: Membuat instance TPU.
Memecahkan masalah performa pelatihan yang lambat
Jika model Anda dilatih secara lambat, buat dan tinjau laporan metrik.
Untuk menganalisis laporan metrik secara otomatis dan memberikan ringkasan, jalankan workload Anda dengan PT_XLA_DEBUG=1.
Untuk mengetahui informasi selengkapnya tentang masalah yang mungkin menyebabkan model Anda dilatih secara lambat, lihat Peringatan performa yang diketahui.
Pembuatan profil performa
Untuk membuat profil workload Anda secara mendalam guna menemukan bottleneck, tinjau referensi berikut:
Alat proses debug lainnya
Anda dapat menentukan variabel lingkungan untuk mengontrol perilaku software stack PyTorch/XLA.
Jika Anda mengalami bug yang tidak terduga dan memerlukan bantuan, ajukan masalah di GitHub.
Mengelola tensor XLA
Keanehan tensor XLA menjelaskan hal yang boleh dan tidak boleh Anda lakukan saat menggunakan tensor XLA dan bobot bersama.