Melatih Resnet50 di Cloud TPU dengan PyTorch

Tutorial ini menunjukkan cara melatih model ResNet-50 di perangkat Cloud TPU dengan PyTorch. Anda dapat menerapkan pola yang sama ke model klasifikasi gambar lain yang dioptimalkan untuk TPU yang menggunakan PyTorch dan set data ImageNet.

Model dalam tutorial ini didasarkan pada Deep Residual Learning for Image Recognition, yang pertama kali memperkenalkan arsitektur jaringan residual (ResNet). Tutorial ini menggunakan varian 50 lapisan, ResNet-50, dan menunjukkan cara melatih model menggunakan PyTorch/XLA.

Tujuan

Siapkan set data.
Jalankan tugas pelatihan.
Verifikasi hasil output.

Biaya

Dalam dokumen ini, Anda akan menggunakan komponen Google Cloudyang dapat ditagih sebagai berikut:

Compute Engine
Cloud TPU

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga.

Pengguna Google Cloud baru mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Sebelum memulai

Sebelum memulai tutorial ini, periksa apakah project Google Cloud Anda telah disiapkan dengan benar.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Panduan ini menggunakan komponen Google Cloudyang dapat ditagih. Lihat halaman harga Cloud TPU untuk memperkirakan biaya Anda. Pastikan untuk membersihkan resource yang Anda buat setelah Anda selesai menggunakannya untuk menghindari tagihan yang tidak perlu.

Membuat VM TPU

Buka jendela Cloud Shell.

Buka Cloud Shell
Membuat VM TPU
```
gcloud compute tpus tpu-vm create your-tpu-name \
--accelerator-type=v3-8 \
--version=tpu-ubuntu2204-base \
--zone=us-central1-a \
--project=your-project
```
Catatan: Saat pertama kali Anda menjalankan perintah di VM Cloud Shell baru, halaman Authorize Cloud Shell akan ditampilkan. Klik Authorize di bagian bawah halaman untuk mengizinkan gcloud melakukan panggilan API Google Cloud dengan kredensial Anda.

Hubungkan ke VM TPU Anda menggunakan SSH:

gcloud compute tpus tpu-vm ssh  your-tpu-name --zone=us-central1-a

Instal PyTorch/XLA di VM TPU Anda:

(vm)$ pip install torch torch_xla[tpu] torchvision -f https://storage.googleapis.com/libtpu-releases/index.html -f https://storage.googleapis.com/libtpu-wheels/index.html

Clone repositori GitHub PyTorch/XLA

(vm)$ git clone --depth=1 https://github.com/pytorch/xla.git

Jalankan skrip pelatihan dengan data palsu

(vm) $ PJRT_DEVICE=TPU python3 xla/test/test_train_mp_imagenet.py --fake_data --batch_size=256 --num_epochs=1

Pembersihan

Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.

Putuskan koneksi dari VM TPU:
```
(vm) $ exit
```
Sekarang perintah Anda akan menjadi username@projectname, yang menunjukkan Anda berada dalam Cloud Shell.

Hapus VM TPU Anda.

$ gcloud compute tpus tpu-vm delete your-tpu-name \
   --zone=us-central1-a