Ringkasan penyimpanan dalam cache di Cloud Storage FUSE

Dokumen ini memberikan detail tentang opsi caching yang tersedia untuk Cloud Storage FUSE dan cara mengonfigurasi setiap jenis cache.

Untuk membantu meningkatkan performa pengambilan data, Cloud Storage FUSE menawarkan tiga jenis caching opsional. Gunakan tabel berikut untuk mempelajari lebih lanjut setiap jenis caching:

Jenis caching Deskripsi
Caching file

Mempercepat pembacaan data file untuk workload yang banyak membaca dan berulang kali mengakses data, terutama pelatihan kecerdasan buatan dan machine learning yang membaca file besar yang sama beberapa kali, sehingga mengurangi latensi secara signifikan.

Caching daftar

Mempercepat operasi listing direktori untuk workload yang sering mencantumkan seluruh konten direktori, seperti melakukan iterasi pada kumpulan file besar di awal tugas pemrosesan, sehingga meningkatkan kecepatan traversal direktori.

Caching statistik

Mempercepat operasi metadata file untuk aplikasi yang sering memeriksa atribut file, yang umum untuk banyak aplikasi yang berulang kali memeriksa apakah file telah berubah, sehingga mengurangi jumlah panggilan `GetMetadata` untuk Cloud Storage.

Pertimbangan

  • Mengaktifkan caching dapat meningkatkan performa, tetapi mengurangi konsistensi, yang biasanya terjadi saat Anda mengakses bucket yang sama menggunakan beberapa klien dengan tingkat perubahan yang tinggi. Untuk mengurangi dampak pada konsistensi, sebaiknya pasang bucket sebagai hanya baca. Untuk mempelajari perilaku caching lebih lanjut, lihat Semantik Cloud Storage FUSE dalam dokumentasi GitHub Cloud Storage FUSE.

  • Untuk menghindari cache thrashing, pastikan seluruh set data Anda sesuai dengan kapasitas cache. Selain itu, pertimbangkan kapasitas dan performa maksimum yang dapat disediakan media cache Anda. Jika Anda mencapai performa maksimum, batas kapasitas, atau keduanya dari cache yang disediakan, sebaiknya baca langsung dari Cloud Storage yang memiliki batas jauh lebih tinggi daripada Cloud Storage FUSE.

Jalur baca untuk data yang di-cache

Cache Cloud Storage FUSE mempercepat pembacaan berulang setelah data dimasukkan ke cache. Pembacaan pertama dan cache miss langsung masuk ke Cloud Storage dan tunduk pada latensi jaringan Cloud Storage normal. Untuk meningkatkan performa pembacaan pertama, lihat Mengisi cache metadata terlebih dahulu.

Langkah berikutnya