Dokumen ini menjelaskan cara menggunakan konfigurasi berbasis profil untuk menyederhanakan adopsi dan meningkatkan performa Cloud Storage FUSE untuk workload kecerdasan buatan atau machine learning (AI/ML) Anda.
Untuk membantu menyederhanakan konfigurasi Cloud Storage FUSE untuk workload penayangan, pembuatan checkpoint, atau pelatihan, Anda dapat menerapkan profil yang telah dikonfigurasi sebelumnya berdasarkan jenis workload menggunakan kolom profile atau opsi --profile. Dengan menggunakan kolom atau opsi, Anda dapat menentukan serangkaian fitur Cloud Storage FUSE yang telah dioptimalkan dan telah ditentukan sebelumnya untuk ukuran buffer, threading, dan caching, sehingga memastikan performa tinggi dengan sedikit upaya untuk pelatihan, pembuatan titik pemeriksaan, dan workload penayangan, dengan nilai profil aiml-training, aiml-checkpointing, dan aiml-serving.
Pertimbangan
Anda hanya dapat menetapkan opsi
--profileatau kolomprofileselama operasi pemasangan. Jika Anda perlu memperbarui opsi--profileatau kolomprofile, Anda harus me-remount bucket Cloud Storage FUSE.Saat Anda menggunakan konfigurasi berbasis profil, Cloud Storage FUSE menetapkan kapasitas cache metadata dan time to live (TTL) ke tidak terbatas, yang berarti entri tidak pernah dikeluarkan dari cache metadata. Jika mesin virtual Anda tidak memiliki cukup memori, Anda mungkin mengalami error Kehabisan Memori (OOM). Oleh karena itu, sebaiknya tinjau kapasitas memori Anda sebelum menerapkan konfigurasi berbasis profil. Error OOM lebih mungkin terjadi pada mesin dengan memori kurang dari satu TiB.
Jika parameter Cloud Storage FUSE dikonfigurasi dengan beberapa cara, urutan prioritas berikut berlaku (dari tertinggi hingga terendah):
- Nilai yang ditetapkan langsung dalam perintah
gcsfuseatau file konfigurasi Cloud Storage FUSE. - Nilai yang ditetapkan oleh profil, dengan profil ditentukan menggunakan opsi
--profiledalam perintahgcsfuseatau kolomprofiledalam file konfigurasi Cloud Storage FUSE. - Nilai default diterapkan secara otomatis saat Cloud Storage FUSE mendeteksi jenis mesin berperforma tinggi. Untuk mengetahui informasi selengkapnya, lihat Nilai konfigurasi otomatis untuk jenis mesin berperforma tinggi.
- Nilai yang ditetapkan langsung dalam perintah
Volume CSI Cloud Storage FUSE di Pod Google Kubernetes Engine tidak mendukung kolom
profileatau opsi--profile.Caching file tidak dapat diaktifkan menggunakan konfigurasi berbasis profil karena caching file memerlukan penggunaan kolom konfigurasi Cloud Storage FUSE dan opsi CLI Cloud Storage FUSE yang tidak dapat digeneralisasi. Untuk mengaktifkan caching file untuk penayangan, pelatihan, atau checkpointing workload, Anda harus mengonfigurasi opsi atau kolom caching file secara eksplisit.
Menerapkan konfigurasi berbasis profil untuk workload pelatihan
Profil khusus pelatihan mengoptimalkan performa untuk pembacaan set data besar dengan throughput tinggi dan mencegah hardware GPU Cloud dan TPU Cloud menunggu data.
Untuk menerapkan profil khusus pelatihan, tentukan profile: aiml-training menggunakan file konfigurasi Cloud Storage FUSE atau --profile=aiml-training menggunakan
CLI Cloud Storage FUSE. Kemudian, konfigurasi berikut diterapkan:
# Create implicit directories locally when accessed:
- implicit-dirs
# Disable caching for lookups of files or directories that don't exist:
- metadata-cache:negative-ttl-secs:0
# Keep cached metadata (file attributes, types) indefinitely time-wise:
- metadata-cache:ttl-secs:-1
# Allow unlimited size for the file attribute (stat) cache:
- metadata-cache:stat-cache-max-size-mb:-1
# Allow unlimited size for the file/directory type cache:
- metadata-cache:type-cache-max-size-mb:-1
Menerapkan konfigurasi berbasis profil untuk workload pembuatan titik pemeriksaan
Profil khusus checkpoint mengoptimalkan performa untuk penulisan throughput tinggi untuk file besar dengan mengurangi secara drastis waktu yang diperlukan untuk menyimpan checkpoint multi-gigabyte, sehingga meminimalkan jeda pelatihan.
Untuk menerapkan profil khusus pembuatan titik pemeriksaan, tentukan profile: aiml-checkpointing menggunakan file konfigurasi Cloud Storage FUSE atau --profile=aiml-checkpointing menggunakan
CLI Cloud Storage FUSE. Kemudian, konfigurasi berikut diterapkan:
# Create implicit directories locally when accessed:
- implicit-dirs
# Disable caching for lookups of files/dirs that don't exist:
- metadata-cache:negative-ttl-secs:0
# Keep cached metadata (file attributes, types) indefinitely time-wise:
- metadata-cache:ttl-secs:-1
# Allow unlimited size for the file attribute (stat) cache:
- metadata-cache:stat-cache-max-size-mb:-1
# Allow unlimited size for the file/directory type cache:
- metadata-cache:type-cache-max-size-mb:-1
# Cache the entire file when any part is read sequentially:
- file-cache:cache-file-for-range-read:true
# Allow renaming directories with a lot of files in non-HNS buckets.
- file-system:rename-dir-limit:200000
Menerapkan konfigurasi berbasis profil untuk workload inferensi
Penayangan mengoptimalkan performa untuk beban kerja penayangan dengan meningkatkan mekanisme akses dan caching data.
Untuk menerapkan profil khusus penayangan, tentukan profile: aiml-serving menggunakan file konfigurasi Cloud Storage FUSE atau --profile=aiml-serving menggunakan
CLI Cloud Storage FUSE. Kemudian, konfigurasi berikut diterapkan:
# Create implicit directories locally when accessed:
- implicit-dirs
# Disable caching for lookups of files/dirs that don't exist:
- metadata-cache:negative-ttl-secs:0
# Keep cached metadata (file attributes, types) indefinitely time-wise:
- metadata-cache:ttl-secs:-1
# Allow unlimited size for the file attribute (stat) cache:
- metadata-cache:stat-cache-max-size-mb:-1
# Allow unlimited size for the file/directory type cache:
- metadata-cache:type-cache-max-size-mb:-1
# Cache the entire file when any part is read sequentially:
- file-cache:cache-file-for-range-read:true
# Enable kernel-list-cache to make listing faster as this is a readonly file system hierarchy.
- file-system:kernel-list-cache-ttl-secs:-1
Langkah berikutnya
Pelajari nilai konfigurasi otomatis untuk jenis mesin berperforma tinggi.
Pelajari cara mengoptimalkan performa dengan file YAML GKE yang telah dikonfigurasi sebelumnya.