Opsi penyimpanan untuk data Cloud TPU
Dokumen ini menjelaskan opsi penyimpanan data yang dapat digunakan saat melatih model di Cloud TPU.
Pengantar
Cloud TPU memerlukan penyimpanan data untuk:
- Mendownload dan melakukan prapemrosesan set data
- Pemrosesan pipeline input host
- Input pelatihan model
- Output pelatihan model
Opsi penyimpanan untuk data aplikasi dan set data pelatihan Cloud TPU adalah:
- Block storage yang andal, termasuk boot disk dan disk penyimpanan terlampir
- Bucket Cloud Storage
- Cloud Storage FUSE
- Berbagi file Filestore di VM Compute Engine
Untuk mengetahui informasi selengkapnya tentang mengelola penyimpanan, lihat halaman berikut:
Block storage yang andal
Block storage yang andal, juga dikenal sebagai disk atau volume, adalah untuk data yang ingin Anda simpan setelah Anda menghentikan, menangguhkan, atau menghapus VM TPU. Penyimpanan blok yang tahan lama masih tersedia meskipun VM TPU mengalami error atau gagal. Anda dapat menggunakan boot disk VM TPU atau memasang block storage tambahan ke TPU.
Sebaiknya lampirkan disk tambahan dalam skenario berikut:
- Ukuran set data pelatihan Anda melebihi ukuran disk booting TPU.
- Anda memiliki data hanya baca dan menginginkan akses baca yang lebih cepat menggunakan volume Hyperdisk ML.
Anda dapat melampirkan dua jenis block storage yang tahan lama ke Cloud TPU: Google Cloud Hyperdisk dan Persistent Disk. Persistent Disk tidak didukung untuk seri mesin terbaru, termasuk Cloud TPU v6e. Google merekomendasikan penggunaan Google Cloud Hyperdisk untuk performa tertinggi dan fitur lanjutan.
Disk boot VM TPU
Secara default, setiap VM Cloud TPU memiliki satu disk boot 100 GiB yang berisi sistem operasi. Disk booting juga dapat digunakan untuk penyimpanan sementara set data yang didownload untuk pemrosesan awal serta data input dan output model, selama jumlah totalnya tidak melebihi ruang yang tersedia di disk booting.
Anda tidak dapat mengubah ukuran disk boot di Cloud TPU. Jika aplikasi Anda memerlukan ruang penyimpanan tambahan di luar default disk boot, Anda dapat menambahkan satu atau beberapa disk yang tahan lama ke instance VM TPU. Untuk mengetahui informasi selengkapnya, lihat Melampirkan block storage yang tahan lama ke VM TPU.
Praktik terbaik untuk menyesuaikan disk booting VM Cloud TPU
VM Cloud TPU memberikan fleksibilitas untuk menyesuaikan lingkungan OS tamu menggunakan skrip startup atau dengan membuat image kustom. Namun, pemulihan boot disk untuk VM Cloud TPU terbatas. Anda tidak dapat melepaskan atau mengambil snapshot disk booting untuk perbaikan offline, jadi berhati-hatilah saat membuat perubahan yang memengaruhi proses booting. Dengan mengikuti praktik terbaik ini, Anda dapat mengurangi risiko kegagalan booting saat menyesuaikan lingkungan VM TPU Cloud.
Prinsip utama:
Minimalkan modifikasi disk booting: Sebisa mungkin, instal aplikasi dan simpan data di volume Persistent Disk atau Hyperdisk, bukan memodifikasi disk booting secara besar-besaran.
Gunakan UUID untuk pemasangan: Saat menambahkan entri ke
/etc/fstab, selalu gunakan UUID untuk mengidentifikasi disk dan partisi (UUID=...), bukan nama perangkat seperti/dev/sdb1, karena nama perangkat yang dibuat otomatis tidak dijamin stabil di seluruh proses mulai ulang.
Rekomendasi:
Penanganan error: Terapkan pemeriksaan error yang andal dan mode kegagalan yang cermat dalam skrip Anda. Mencatat pesan mendetail ke konsol serial dan Cloud Logging untuk membantu proses debug.
Dependensi penting: Berhati-hatilah saat mengubah file yang penting untuk booting, seperti
/etc/fstab, konfigurasi jaringan, atau setelan bootloader. Kesalahan sintaksis atau entri yang salah dapat menyebabkan VM tidak dapat di-booting.Disk sekunder: Jika skrip Anda bergantung pada disk sekunder, pastikan skrip tersebut menangani kasus saat disk mungkin tidak ada atau memerlukan waktu lebih lama untuk dilampirkan dari yang diharapkan. Hindari membuat proses booting sangat bergantung pada pemasangan disk sekunder kecuali benar-benar diperlukan.
Contoh entri '/etc/fstab':
- Direkomendasikan:
UUID=a1b2c3d4-e5f6-7890-1234-567890abcdef /mnt/mydata ext4 defaults,nofail 0 2 - Tidak direkomendasikan:
/dev/sdb1 /mnt/mydata ext4 defaults 0 2
Menggunakan
nofaildapat mencegah sistem berhenti jika disk tidak ditemukan, tetapi pastikan aplikasi Anda dapat menangani titik pemasangan yang tidak tersedia.- Direkomendasikan:
Pengelolaan paket: Berhati-hatilah saat menambahkan repositori pihak ketiga. Pastikan image tersebut tepercaya dan kompatibel dengan image OS dasar. Memahami dependensi paket yang Anda instal dan potensi dampaknya pada library sistem.
Ruang penyimpanan disk: Pantau penggunaan disk boot. Logging yang ekstensif atau penginstalan software berukuran besar dapat mengisi boot disk, sehingga mencegah VM dimulai.
Logging: Konfigurasi aplikasi dan skrip Anda untuk mencatat log secara verbose ke konsol serial, karena ini adalah alat utama untuk mendiagnosis masalah booting di VM Cloud TPU.
Penyimpanan terpasang
Hyperdisk dan Persistent Disk adalah perangkat penyimpanan jaringan yang tahan lama dan dapat diakses oleh instance VM Anda seperti disk fisik di desktop atau server. Kedua jenis disk dibuat secara terpisah dari instance virtual machine (VM) Anda, sehingga Anda dapat menyimpan data Anda meskipun Anda menghapus instance VM Anda.
Keuntungan menggunakan Hyperdisk dibandingkan Persistent Disk mencakup performa yang dapat disesuaikan, batas IOPS dan throughput yang lebih tinggi. Untuk mengetahui informasi selengkapnya tentang Hyperdisk dan Persistent Disk, lihat Memilih jenis disk.
Untuk mengetahui informasi selengkapnya tentang cara menggunakan penyimpanan blok yang tahan lama dengan VM TPU, lihat Melampirkan penyimpanan blok yang tahan lama ke VM TPU.
Cadangan disk
Data dari boot disk mungkin sulit diambil jika VM TPU mengalami masalah dan berada dalam status "tidak diketahui" atau untuk memulihkan data yang dihapus. Pastikan untuk mencadangkan data Anda menggunakan opsi penyimpanan lain, seperti bucket Cloud Storage.
Jika menyimpan data di disk terpasang, Anda dapat menggunakan snapshot disk, yang mencadangkan data di disk secara bertahap. Snapshot disk tidak didukung untuk disk boot TPU. Untuk mengetahui informasi selengkapnya, lihat Tentang snapshot disk.
Bucket Cloud Storage
Bucket Cloud Storage adalah opsi penyimpanan yang paling fleksibel, skalabel, dan tahan lama untuk instance VM Anda. Jika tugas pelatihan Anda tidak memerlukan latensi yang lebih rendah dari penyimpanan blok yang tahan lama, Anda dapat menyimpan set data di bucket Cloud Storage.
Performa bucket Cloud Storage bergantung pada kelas penyimpanan yang Anda pilih dan lokasi bucket yang relatif terhadap instance Anda.
Membuat bucket Cloud Storage di zona yang sama dengan VM TPU Anda memberikan performa yang sebanding dengan block storage yang andal, tetapi dengan latensi yang lebih tinggi dan karakteristik throughput yang kurang konsisten.
Semua bucket Cloud Storage memiliki redundansi bawaan untuk melindungi data Anda dari kegagalan peralatan dan memastikan ketersediaan data melalui peristiwa pemeliharaan pusat data. Checksum dihitung untuk semua operasi Cloud Storage guna membantu memastikan bahwa yang Anda baca adalah yang Anda tulis.
Tidak seperti penyimpanan blok yang tahan lama, bucket Cloud Storage tidak dibatasi pada zona tempat instance Anda berada. Selain itu, Anda dapat membaca dan menulis data ke bucket dari beberapa instance secara bersamaan. Misalnya, Anda dapat mengonfigurasi instance di beberapa zona untuk membaca dan menulis data di bucket yang sama, bukan mereplikasi data ke penyimpanan blok yang tahan lama di beberapa zona.
Untuk mengetahui informasi selengkapnya tentang cara menghubungkan VM TPU ke bucket Cloud Storage, lihat Menghubungkan ke bucket Cloud Storage.
Cloud Storage FUSE
Dengan Cloud Storage FUSE, Anda dapat memasang dan mengakses bucket Cloud Storage sebagai sistem file lokal. Hal ini memungkinkan aplikasi membaca dan menulis objek di bucket Anda menggunakan semantik sistem file standar.
Lihat dokumentasi FUSE Cloud Storage untuk mengetahui detail tentang cara kerja Cloud Storage FUSE dan deskripsi tentang cara pemetaan operasi Cloud Storage FUSE ke operasi Cloud Storage. Anda dapat menemukan informasi tambahan tentang cara menggunakan Cloud Storage FUSE, seperti cara menginstal CLI Cloud Storage FUSE dan memasang bucket di GitHub.
Berbagi file Filestore
Berbagi file Filestore adalah Network Attached Storage (NAS) yang terkelola sepenuhnya untuk Compute Engine. Filestore menawarkan kompatibilitas dengan aplikasi perusahaan yang ada dan mendukung klien yang kompatibel dengan NFSv3.
Filestore menawarkan latensi rendah untuk operasi file. Untuk beban kerja yang sensitif terhadap latensi, Filestore mendukung kapasitas hingga 100 TiB dan throughput sebesar 25 GiB per detik dan 720 ribu IOPS, dengan variabilitas minimum dalam performanya.
Dengan Filestore, Anda dapat memasang berbagi file di VM TPU.
Langkah berikutnya
- Pelajari cara menambahkan penyimpanan blok yang tahan lama ke instance Anda.
- Pelajari cara menghubungkan instance ke bucket Cloud Storage.