Dokumen ini memberikan detail tentang opsi caching yang tersedia untuk Cloud Storage FUSE dan cara mengonfigurasi setiap jenis cache.
Untuk membantu meningkatkan performa pengambilan data, Cloud Storage FUSE menawarkan empat jenis caching opsional. Gunakan tabel berikut untuk mempelajari lebih lanjut setiap jenis caching:
Jenis penyimpanan ke dalam cache | Deskripsi |
---|---|
Penyimpanan cache file | Mempercepat pembacaan data file untuk workload yang banyak membaca yang berulang kali mengakses data, terutama pelatihan kecerdasan buatan dan machine learning yang membaca file besar yang sama beberapa kali, sehingga mengurangi latensi secara signifikan. |
Penyimpanan cache daftar | Mempercepat operasi listingan direktori untuk workload yang sering mencantumkan seluruh konten direktori, seperti melakukan iterasi pada sekumpulan besar file di awal tugas pemrosesan, sehingga meningkatkan kecepatan penelusuran direktori. |
Caching statistik | Mempercepat operasi metadata file untuk aplikasi yang sering memeriksa atribut file, yang umum untuk banyak aplikasi yang berulang kali memeriksa apakah file telah berubah, sehingga mengurangi jumlah panggilan `GetMetadata` untuk Cloud Storage. |
Caching jenis | Mempercepat pemeriksaan keberadaan file atau direktori untuk workload yang melakukan banyak pemeriksaan keberadaan atau pencarian jalur, sehingga meningkatkan latensi dengan mengurangi jumlah permintaan yang dibuat ke Cloud Storage untuk memeriksa apakah jalur ada. |
Pertimbangan
Mengaktifkan caching dapat meningkatkan performa, tetapi mengurangi konsistensi, yang biasanya terjadi saat Anda mengakses bucket yang sama menggunakan beberapa klien dengan tingkat perubahan yang tinggi. Untuk mengurangi dampak pada konsistensi, sebaiknya pasang bucket sebagai hanya baca. Untuk mempelajari lebih lanjut perilaku caching, lihat Semantik Cloud Storage FUSE dalam dokumentasi GitHub Cloud Storage FUSE.
Untuk menghindari pengurasan cache, pastikan seluruh set data Anda sesuai dengan kapasitas cache. Selain itu, pertimbangkan kapasitas dan performa maksimum yang dapat disediakan media cache Anda. Jika Anda mencapai performa maksimum, batas kapasitas, atau keduanya, pada cache yang disediakan, sebaiknya baca langsung dari Cloud Storage yang memiliki batas jauh lebih tinggi daripada Cloud Storage FUSE.
Jalur baca untuk data dalam cache
Cache Cloud Storage FUSE mempercepat pembacaan berulang setelah data dimasukkan ke cache. Pembacaan pertama dan cache miss langsung menuju Cloud Storage dan tunduk pada latensi jaringan Cloud Storage normal. Untuk meningkatkan performa baca pertama kali, lihat Mengisi cache metadata terlebih dahulu.
Langkah berikutnya
Pelajari lebih lanjut setiap jenis penyimpanan dalam cache: