Google menggunakan teknologi AI untuk menerjemahkan konten ke dalam bahasa pilihan Anda. Terjemahan AI mungkin mengandung kesalahan.

Konektor untuk PyTorch

Cloud Storage Connector for PyTorch adalah alat open source untuk integrasi langsung antara Cloud Storage dan PyTorch. Konektor ini membantu Anda memuat data pelatihan dan mengelola checkpoint model untuk workload Kecerdasan Buatan (AI) dan Machine Learning (ML).

Halaman ini menjelaskan cara menginstal dan mulai menggunakan Cloud Storage Connector for PyTorch.

Ringkasan

Connector for PyTorch memberikan keuntungan untuk pemuatan data dalam pelatihan dan untuk checkpointing serta pemuatan model:

Untuk pemuatan data dalam pelatihan, Connector for PyTorch memberikan keuntungan berikut:

Connector for PyTorch berisi pengoptimalan untuk membuat pelatihan hingga tiga kali lebih cepat daripada PyTorch default dalam set data yang terutama terdiri dari file yang lebih kecil dari 1 MB.
Connector for PyTorch mengimplementasikan primitif set data PyTorch yang dapat digunakan untuk membantu memuat data pelatihan secara efisien dari bucket Cloud Storage.
Dukungan untuk set data gaya peta untuk pola akses data acak dan set data gaya yang dapat diulang untuk pola akses data streaming.
Kemampuan untuk mengubah byte data mentah yang didownload ke dalam format pilihan Anda, sehingga PyTorch DataLoader dapat bekerja secara fleksibel dengan array NumPy atau tensor PyTorch.

Untuk checkpointing dan pemuatan model, Connector for PyTorch memberikan keuntungan berikut:

Antarmuka checkpointing untuk menyimpan checkpoint model dengan mudah dan langsung ke bucket Cloud Storage dan memuat checkpoint model dari bucket.
Connector for PyTorch mendukung checkpointing PyTorch Lightning dengan menggunakan implementasi DatafluxLightningCheckpoint dari CheckpointIO PyTorch Lightning.
Connector for PyTorch menyediakan implementasi StorageWriter dan StorageReader untuk digunakan dengan checkpointing terdistribusi PyTorch. Library demo Connector for PyTorch menyertakan kode contoh untuk menggunakannya dalam workload PyTorch Lightning FSDP.
Checkpointing konektor mencakup dukungan untuk penyimpanan checkpoint asinkron saves dengan Lightning dan PyTorch dasar.

Untuk mengetahui informasi selengkapnya, lihat halaman landing GitHub Connector for PyTorch.

Framework

Connector for PyTorch didukung pada versi framework berikut:

Python 3.8 atau yang lebih baru
PyTorch Lightning 2.0 atau yang lebih baru
PyTorch 2.3.1 atau yang lebih baru

Memulai

Untuk menggunakan Connector for PyTorch, Anda harus memiliki hal berikut:

Bucket Cloud Storage yang berisi data yang ingin Anda gunakan.
- Lihat penggunaan objek gabungan untuk setelan tambahan yang direkomendasikan untuk bucket.
Izin berikut untuk menggunakan data yang disimpan di bucket:
- storage.objects.create
- storage.objects.list
- storage.objects.get
- storage.objects.delete, jika Anda ingin menggunakan download gabungan

Izin ini harus diberikan ke akun yang akan digunakan Connector for PyTorch untuk autentikasi dengan menggunakan peran IAM seperti Pengguna Objek Penyimpanan.

Penginstalan

Untuk menginstal Connector for PyTorch, gunakan perintah berikut:

pip install gcs-torch-dataflux

Konfigurasi

Autentikasi harus diberikan untuk menggunakan Connector for PyTorch Kredensial Default Aplikasi melalui salah satu metode berikut:

Saat menjalankan Connector for PyTorch di VM Compute Engine, Kredensial Default Aplikasi akan otomatis menggunakan akun layanan terlampir VM secara default. Untuk mengetahui informasi selengkapnya, lihat Memilih metode autentikasi workload.
Kredensial Default Aplikasi juga dapat dikonfigurasi secara manual. Anda dapat login langsung menggunakan Google Cloud CLI:

gcloud auth application-default login

Contoh

Kumpulan lengkap contoh untuk menggunakan Connector for PyTorch dapat ditemukan di direktori demo repositori GitHub Connector for PyTorch. Beberapa contoh di antaranya:

Notebook Jupyter pemula dasar (dihosting oleh Google Colab).
Panduan alur kerja pelatihan segmentasi gambar menyeluruh .
Contoh menyeluruh dan notebook untuk integrasi PyTorch Lightning.

Performa

Connector for PyTorch memiliki pengoptimalan khusus yang dirancang untuk workload ML yang dapat memberikan performa yang jauh lebih baik daripada panggilan API langsung ke Cloud Storage:

Untuk mengoptimalkan performa listingan, Connector for PyTorch menggunakan algoritma listingan cepat yang dikembangkan untuk menyeimbangkan workload listingan di antara proses listingan objek yang diparalelkan.
Untuk mengoptimalkan performa download file kecil, Connector for PyTorch menggunakan operasi gabungan untuk menggabungkan kumpulan objek yang lebih kecil menjadi satu objek yang lebih besar. Objek gabungan ini disimpan di bucket yang sama dengan objek sumber dan memiliki awalan dataflux-composed-objects/ dalam namanya.
Upload Multibagian untuk penulisan checkpoint memungkinkan peningkatan performa hingga 10x dibandingkan upload checkpoint standar.

Anda dapat menemukan data performa di GitHub untuk hal berikut:

Pelatihan Berbasis Teks Lightning
Pelatihan Gambar Lightning
Checkpointing node tunggal
Checkpointing multi-node

Pertimbangan

Hal berikut harus dipertimbangkan berdasarkan per workload.

Operasi listingan cepat

Algoritma listingan cepat Connector for PyTorch menyebabkan Connector for PyTorch menggunakan lebih banyak operasi listingan daripada listingan berurutan biasa. Operasi listingan dikenai biaya sebagai operasi Kelas A.

Penggunaan objek gabungan

Untuk menghindari biaya penyimpanan berlebih dan biaya penghapusan awal saat menggunakan objek gabungan sementara, Anda harus memastikan bucket menggunakan setelan berikut:

Penghapusan Sementara dinonaktifkan
Penguncian Bucket dinonaktifkan
Pemberian Versi Objek dinonaktifkan
Penyimpanan standar sebagai class penyimpanan untuk bucket dan objek.

Objek gabungan yang dibuat oleh Connector for PyTorch biasanya otomatis dihapus di akhir loop pelatihan Anda, tetapi dalam kasus yang jarang terjadi, objek tersebut mungkin tidak dihapus. Untuk memastikan objek dihapus dari bucket, Anda dapat menjalankan perintah berikut:

gcloud storage rm gs://<my-bucket>/dataflux-composed-objects/ --recursive

Anda dapat menonaktifkan penggunaan objek gabungan dengan menyertakan disable_compose=True atau max_composite_object_size=0 di bagian konfigurasi set data yang Anda buat. Namun, menonaktifkan perilaku ini dapat menyebabkan loop pelatihan memerlukan waktu yang jauh lebih lama, terutama saat menggunakan file kecil.

Penggunaan objek gabungan menyebabkan Cloud Storage mencapai batas QPS dan throughput pada skala yang lebih rendah daripada mendownload file secara langsung. Anda harus menonaktifkan penggunaan objek gabungan saat menjalankan pada skala multi-node tinggi saat Anda mencapai batas QPS atau throughput project meskipun tanpa menggunakan objek gabungan.

Error 429 dan performa yang menurun

Saat menggunakan Connector for PyTorch, Anda mungkin menerima error 429 atau waktu eksekusi yang lebih lambat dari yang diharapkan. Ada beberapa alasan umum mengapa hal ini terjadi:

Banyak upaya machine learning memilih model pelatihan yang sangat terdistribusi yang memanfaatkan alat seperti PyTorch Lightning dan Ray. Model ini kompatibel dengan Connector for PyTorch, tetapi sering kali dapat memicu batas frekuensi Cloud Storage.
Error 429 yang disertai dengan pesan seperti "Workload ini menggunakan terlalu banyak bandwidth keluar dari Cloud Storage" atau "Workload ini memicu Batas Bandwidth Keluar Cloud Storage" menunjukkan bahwa kecepatan throughput data workload Anda melebihi kapasitas maksimum project Anda Google Cloud . Untuk mengatasi masalah ini, lakukan langkah-langkah berikut:
- Pastikan workload lain dalam project Anda tidak menggunakan bandwidth berlebih.
- Ajukan permintaan penambahan kuota.
- Sesuaikan opsi list_retry_config dan download_retry_config di bagian konfigurasi set data yang Anda buat untuk menyesuaikan backoff coba lagi dan memaksimalkan performa.
Batas QPS dapat memicu error 429 dengan pesan isi yang menunjukkan TooManyRequests, tetapi lebih sering terjadi dalam waktu eksekusi yang lebih lambat dari yang diharapkan. Bottleneck QPS lebih umum terjadi saat beroperasi pada volume file kecil yang tinggi. Batas QPS bucket secara alami diskalakan dari waktu ke waktu, sehingga memungkinkan periode pemanasan sering kali dapat menghasilkan performa yang lebih cepat. Untuk mendapatkan detail selengkapnya tentang performa bucket target, lihat tab Observabilitas saat melihat bucket dari konsol. Google Cloud
Jika workload Anda gagal dengan error TooManyRequests yang menyertakan kata kunci dataflux-composed-objects dalam pesan error, menonaktifkan penggunaan objek gabungan adalah langkah pemecahan masalah pertama yang terbaik. Tindakan ini dapat mengurangi beban QPS yang disebabkan oleh operasi gabungan saat digunakan dalam skala besar.

Penggunaan memori

Penulisan dan pemuatan checkpoint, termasuk model akhir untuk inferensi, sepenuhnya dipentaskan dalam memori untuk mengoptimalkan performa upload dan download. Setiap mesin harus memiliki RAM kosong yang cukup untuk memproses checkpoint dalam memori sehingga dapat memanfaatkan peningkatan performa ini.

Mendapatkan dukungan

Anda bisa mendapatkan dukungan, mengirimkan pertanyaan umum, dan meminta fitur baru dengan menggunakan salah satu Google Cloud saluran dukungan resmi. Anda juga bisa mendapatkan dukungan dengan melaporkan masalah di GitHub.

PyTorch, logo PyTorch, dan merek terkait adalah merek dagang The Linux Foundation.

Konektor untuk PyTorch Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.