Dokumen ini menjelaskan cara menggunakan konfigurasi berbasis profil untuk menyederhanakan adopsi dan meningkatkan performa Cloud Storage FUSE untuk workload kecerdasan buatan atau machine learning (AI/ML) Anda.
Untuk membantu menyederhanakan konfigurasi Cloud Storage FUSE untuk workload penayangan, pembuatan titik pemeriksaan, atau pelatihan, Anda dapat menerapkan profil yang telah dikonfigurasi sebelumnya berdasarkan jenis workload menggunakan kolom profile
atau opsi --profile
. Dengan menggunakan kolom atau opsi, Anda dapat menentukan serangkaian fitur Cloud Storage FUSE yang telah dioptimalkan dan telah ditentukan sebelumnya untuk ukuran buffer, threading, dan caching, sehingga memastikan performa tinggi dengan sedikit upaya untuk pelatihan, pembuatan titik pemeriksaan, dan penayangan workload, dengan nilai profil aiml-training
, aiml-checkpointing
, dan aiml-serving
masing-masing.
Pertimbangan
Anda hanya dapat menetapkan opsi
--profile
atau kolomprofile
selama operasi pemasangan. Jika Anda perlu memperbarui opsi--profile
atau kolomprofile
, Anda harus me-remount bucket Cloud Storage FUSE.Saat Anda menggunakan konfigurasi berbasis profil, Cloud Storage FUSE menetapkan kapasitas cache metadata dan time to live (TTL) ke tidak terbatas, yang berarti entri tidak pernah dikeluarkan dari cache metadata. Jika mesin virtual Anda tidak memiliki memori yang cukup, Anda mungkin mengalami error Kehabisan Memori (OOM). Oleh karena itu, sebaiknya tinjau kapasitas memori Anda sebelum menerapkan konfigurasi berbasis profil. Error OOM lebih mungkin terjadi pada mesin dengan memori kurang dari satu TiB.
Saat menentukan nilai konfigurasi menggunakan profil, jenis mesin berperforma tinggi yang terdeteksi, perintah
gcsfuse
, atau file konfigurasi Cloud Storage FUSE, metode akan diprioritaskan dalam urutan berikut (dengan metode teratas menggantikan metode di bawahnya):Nilai yang ditetapkan sebagai bagian dari perintah
gcsfuse
atau file konfigurasi Cloud Storage FUSE.Nilai yang ditetapkan sebagai argumen untuk opsi
--profiles
dalam perintahgcsfuse
atau kolomprofile
dalam file konfigurasi Cloud Storage FUSE.Nilai konfigurasi otomatis yang ditetapkan saat Cloud Storage FUSE mendeteksi bahwa jenis mesin berperforma tinggi sedang digunakan. Untuk mengetahui informasi selengkapnya, lihat Nilai konfigurasi otomatis.
Volume CSI Cloud Storage FUSE di Pod Google Kubernetes Engine tidak mendukung kolom
profile
atau opsi--profile
.Caching file tidak dapat diaktifkan menggunakan konfigurasi berbasis profil karena caching file memerlukan penggunaan kolom konfigurasi Cloud Storage FUSE dan opsi CLI Cloud Storage FUSE yang tidak dapat digeneralisasi. Untuk mengaktifkan penayangan file yang di-cache, pelatihan, atau checkpointing workload, Anda harus mengonfigurasi opsi atau kolom penayangan file yang di-cache secara eksplisit.
Menerapkan konfigurasi berbasis profil untuk workload pelatihan
Profil khusus pelatihan mengoptimalkan performa untuk pembacaan set data besar dengan throughput tinggi dan mencegah hardware GPU Cloud dan TPU Cloud menunggu data.
Untuk menerapkan profil khusus pelatihan, tentukan profile=aiml-training
menggunakan file konfigurasi Cloud Storage FUSE atau --profile=aiml-training
menggunakan
CLI Cloud Storage FUSE. Kemudian, konfigurasi berikut diterapkan:
# Create implicit directories locally when accessed:
- implicit-dirs
# Disable caching for lookups of files or directories that don't exist:
- metadata-cache:negative-ttl-secs:0
# Keep cached metadata (file attributes, types) indefinitely time-wise:
- metadata-cache:ttl-secs:-1
# Allow unlimited size for the file attribute (stat) cache:
- metadata-cache:stat-cache-max-size-mb:-1
# Allow unlimited size for the file/directory type cache:
- metadata-cache:type-cache-max-size-mb:-1
Menerapkan konfigurasi berbasis profil untuk workload pembuatan titik pemeriksaan
Profil khusus pemeriksaan checkpoint mengoptimalkan performa untuk penulisan throughput tinggi untuk file besar dengan mengurangi secara drastis waktu yang diperlukan untuk menyimpan pemeriksaan checkpoint multi-gigabyte, sehingga meminimalkan jeda pelatihan.
Untuk menerapkan profil khusus pelatihan, tentukan profile=aiml-checkpointing
menggunakan file konfigurasi Cloud Storage FUSE atau --profile=aiml-checkpointing
menggunakan
CLI Cloud Storage FUSE. Kemudian, konfigurasi berikut diterapkan:
# Create implicit directories locally when accessed:
- implicit-dirs
# Disable caching for lookups of files/dirs that don't exist:
- metadata-cache:negative-ttl-secs:0
# Keep cached metadata (file attributes, types) indefinitely time-wise:
- metadata-cache:ttl-secs:-1
# Allow unlimited size for the file attribute (stat) cache:
- metadata-cache:stat-cache-max-size-mb:-1
# Allow unlimited size for the file/directory type cache:
- metadata-cache:type-cache-max-size-mb:-1
# Cache the entire file when any part is read sequentially:
- file-cache:cache-file-for-range-read:true
# Allow renaming directories with a lot of files in non-HNS buckets.
- file-system:rename-dir-limit:200000
Menerapkan konfigurasi berbasis profil untuk workload inferensi
Penayangan mengoptimalkan performa untuk beban kerja penayangan dengan meningkatkan mekanisme akses dan caching data.
Untuk menerapkan profil khusus pelatihan, tentukan profile=aiml-serving
menggunakan file konfigurasi Cloud Storage FUSE atau --profile=aiml-serving
menggunakan
CLI Cloud Storage FUSE. Kemudian, konfigurasi berikut diterapkan:
# Create implicit directories locally when accessed:
- implicit-dirs
# Disable caching for lookups of files/dirs that don't exist:
- metadata-cache:negative-ttl-secs:0
# Keep cached metadata (file attributes, types) indefinitely time-wise:
- metadata-cache:ttl-secs:-1
# Allow unlimited size for the file attribute (stat) cache:
- metadata-cache:stat-cache-max-size-mb:-1
# Allow unlimited size for the file/directory type cache:
- metadata-cache:type-cache-max-size-mb:-1
# Cache the entire file when any part is read sequentially:
- file-cache:cache-file-for-range-read:true
# Enable kernel-list-cache to make listing faster as this is a readonly file system hierarchy.
- file-system:kernel-list-cache-ttl-secs:-1
Langkah berikutnya
Pelajari nilai konfigurasi otomatis untuk jenis mesin berperforma tinggi.
Pelajari cara Anda dapat mengoptimalkan performa dengan file YAML GKE yang telah dikonfigurasi sebelumnya.