Bucket Cepat

Halaman ini menjelaskan Rapid Bucket, kemampuan yang memungkinkan Anda menyimpan objek di kelas penyimpanan Cepat dengan menetapkan zona sebagai lokasi bucket. Pendekatan ini memungkinkan Anda menempatkan penyimpanan data bersama dengan resource komputasi, yang memberikan latensi yang jauh lebih rendah dan throughput yang lebih tinggi dibandingkan dengan kelas penyimpanan lain di Cloud Storage. Workload di zona dan region lain juga dapat mengakses bucket, dengan performa yang relatif terhadap jarak jaringan.

Untuk membuat bucket zona menggunakan Rapid Bucket, lihat Membuat bucket zona. Anda dapat melihat daftar lokasi yang didukung di Zona. Untuk membaca dan menambahkan objek di bucket zonal, lihat menggunakan objek di bucket zonal.

Manfaat

Bucket Cepat dibuat untuk menghilangkan hambatan penyimpanan dan ideal untuk digunakan pada aplikasi yang paling banyak menggunakan data, seperti AI/ML dan analisis data. Rapid Bucket mendukung latensi sub-milidetik, throughput gabungan hingga 15 TB/dtk, dan 20 juta kueri per detik (QPS). Latensi ultra-rendah memungkinkan pengambilan data secara instan dan memungkinkan aplikasi inferensi real-time beroperasi dalam skala besar. Throughput yang besar dan QPS yang tinggi membantu memastikan cluster GPU yang mahal Anda sepenuhnya dimanfaatkan, sehingga secara signifikan mengurangi waktu pelatihan model.

Terminologi Rapid Bucket

Dokumentasi Cloud Storage menggunakan istilah berikut:

  • Rapid Bucket: Produk yang memungkinkan bucket dibuat dengan lokasi zonal dan kelas penyimpanan Rapid.

  • Penyimpanan cepat: Kelas penyimpanan yang menawarkan performa operasi I/O dan akses data tertinggi di Cloud Storage. Saat menggunakan Rapid Bucket, Anda membuat bucket yang menggunakan penyimpanan Rapid. Untuk mengetahui informasi selengkapnya tentang penyimpanan Cepat, lihat Kelas penyimpanan.

  • Bucket zonal: Bucket yang berada di zona. Objek dalam bucket zonal selalu disimpan di penyimpanan Cepat dan dapat ditambahkan.

Kemampuan bucket zonal

Selain memberikan latensi rendah dan throughput tinggi, bucket zonal memungkinkan Anda melakukan hal berikut:

  • Menambahkan ke objek dalam bucket zonal tanpa melakukan penulisan ulang objek penuh

  • Membuka objek dan mempertahankan aliran saat Anda melakukan operasi, sehingga Anda dapat mempercepat pembacaan dan penulisan berikutnya

Kasus penggunaan

Bucket Cepat paling cocok untuk workload AI/ML atau workload intensif data lainnya. Beberapa contoh workload tersebut adalah pembuatan checkpoint model, evaluasi, dan penayangan, serta antrean pesan dan logging. Alat ini juga dapat digunakan untuk streaming data atau menyediakan penyimpanan untuk database.

Untuk memanfaatkan sepenuhnya latensi rendah dan throughput tinggi yang disediakan oleh Rapid Bucket, pastikan untuk mengaktifkan konektivitas langsung gRPC.

Akses ke objek dalam bucket zonal

Untuk mendapatkan manfaat performa bucket zonal, pastikan untuk membuka objek untuk streaming dan mempertahankan streaming saat Anda melakukan operasi pada objek. Saat membuat dan mempertahankan aliran, Anda dapat melakukan operasi baca atau tulis berikutnya ke objek dengan latensi yang sangat rendah. Misalnya, saat membaca file Parquet, Anda dapat melakukan pembacaan awal metadata file (footer) dan pembacaan berikutnya dari baris tertentu dalam satu permintaan. Pendekatan ini lebih efisien daripada menggunakan permintaan terpisah untuk setiap langkah.

Setelah dibuat, aliran objek tetap terbuka secara default saat Anda mengakses objek bucket zonal menggunakan Cloud Storage FUSE atau library klien Cloud Storage.

Anda dapat membuka beberapa aliran baca ke objek dari sejumlah host. Tidak ada batasan jumlah aliran baca yang dapat Anda buat ke suatu objek.

Menambahkan objek

Anda dapat menambahkan data ke objek dalam bucket zona. Saat Anda menambahkan objek, semantik berikut berlaku:

  • Objek yang dapat ditambahkan muncul di namespace bucket segera setelah Anda mulai menulisnya dan dapat dibaca saat masih ditulis.

  • Tidak ada batasan jumlah penambahan yang dapat Anda lakukan pada objek atau jumlah byte yang dapat Anda tambahkan dalam satu waktu. Anda dapat melakukan penambahan hingga objek mencapai ukuran maksimumnya, yaitu 5 TiB.

  • Ukuran objek akan bertambah secara real-time saat penambahan baru ditulis atau di-flush secara permanen. Saat membuat aliran baca, Anda harus mengantisipasi penundaan minimal dalam pembaruan ukuran objek.

  • Objek yang dapat ditambahkan hanya dapat memiliki satu penulis dalam satu waktu. Jika aliran tulis baru dibuat untuk objek yang sudah memiliki aliran tulis, error akan ditampilkan dari Cloud Storage ke aliran asli, dan aliran asli tidak akan diizinkan lagi untuk menulis. Penulis baru dapat melanjutkan penambahan dari offset terakhir yang dipertahankan tanpa penambahan lain yang disisipkan ke objek.

Menyelesaikan objek

Setelah objek diselesaikan, Anda tidak dapat lagi menambahkan data ke objek tersebut, tetapi Anda masih dapat mengganti objek dengan versi baru. Metadata objek yang telah diselesaikan masih dapat diubah; misalnya, tag baru dapat ditambahkan dan objek dapat diganti namanya.

Memasang bucket zona

Anda dapat memasang dan mengakses bucket zonal menggunakan Cloud Storage FUSE atau driver CSI Cloud Storage FUSE. Pastikan untuk menggunakan Cloud Storage FUSE versi 3.7.2 atau yang lebih baru. Untuk menggunakan driver CSI Cloud Storage FUSE, pastikan versi Google Kubernetes Engine Anda adalah 1.35.0-gke.3047001 atau yang lebih baru.

Harga

Penggunaan Bucket Cepat menimbulkan biaya untuk penyimpanan data, operasi, dan jaringan. Untuk mengetahui informasi selengkapnya, lihat Harga.

Batasan

  • Bucket zonal harus mengaktifkan namespace hierarkis dan akses level bucket yang seragam.

  • Batasan Google Cloud CLI:

    • Versi Google Cloud CLI minimum yang didukung: Versi minimum gcloud CLI yang mendukung bucket zonal adalah 553.0.0. Versi sebelumnya tidak kompatibel dengan bucket zona. Sebaiknya gunakan gcloud CLI versi terbaru untuk mendapatkan fitur dan perbaikan bug terbaru.

    • Visibilitas upload yang belum selesai: Tidak seperti bucket di kelas penyimpanan lain, tempat objek hanya muncul di namespace setelah upload selesai, objek yang diupload sebagian di bucket zonal akan langsung terlihat. Jika perintah upload Google Cloud CLI gagal atau terganggu, Anda mungkin melihat objek yang tidak lengkap di bucket Anda. Anda tetap dapat melanjutkan upload ini dengan menjalankan kembali perintah.

    • Penimpaan objek: Perilaku Google Cloud CLI standar berlaku untuk bucket zonal: saat Anda menimpa objek, jika file atau objek dengan nama yang sama ada di tujuan, perintah Google Cloud CLI cp, mv, dan rsync akan menimpanya secara default. Untuk mencegah penimpaan, gunakan flag --no-clobber. Saat menggunakan Google Cloud CLI, penambahan data ke objek yang ada tidak didukung; seluruh sumber harus diupload ulang.

    • Penyelesaian objek: Objek yang diupload ke bucket zonal menggunakan Google Cloud CLI terkadang mengalami penundaan singkat sebelum metadata objek disinkronkan sepenuhnya. Karena Cloud Storage menggunakan model yang konsisten pada akhirnya, upaya mendownload objek segera setelah upload dapat menyebabkan error ketidakcocokan hash jika metadata belum diperbarui.

      Jika download gagal dengan error ketidakcocokan hash segera setelah upload, coba lagi perintahnya. Sistem memastikan bahwa download berhasil sepenuhnya atau gagal secara eksplisit; download sebagian atau rusak tidak akan terjadi secara diam-diam.

Ketidaksesuaian

Bucket zonal tidak kompatibel dengan alat, operasi, produk, dan metadata berikut:

  • Alat

    • Penulisan menggunakan XML API atau JSON API

    • Upload multibagian XML API

  • Menulis untuk objek yang tidak dapat ditambahkan menggunakan gRPC

  • Perlindungan data dan pemulihan bencana

    • Pembuatan Versi Objek

    • Hapus untuk sementara

  • Pengelolaan data

    • Rapid Cache

    • Autoclass

    • Kunci Bucket

    • Menyusun objek

    • Penangguhan objek

    • Tindakan Object Lifecycle Management SetStorageClass

    • Kunci Retensi Objek

    • Memindahkan lokasi bucket

    • Upload yang dapat dilanjutkan

    • Menulis ulang objek

    • Pemohon Membayar

  • Kontrol akses

    • Daftar kontrol akses (ACL) tingkat objek

    • Konfigurasi CORS

    • Kunci enkripsi yang disediakan pelanggan (CSEK)

    • Kunci HMAC

  • Metadata

    • Objek dalam bucket zona tidak memiliki hash MD5.

    • Properti metadata yang terkait dengan fitur dan produk yang tidak didukung tidak muncul dalam representasi resource bucket zonal atau objek yang dapat ditambahkan, atau tidak dapat ditulis. Contoh:

      • Properti metadata softDeleteTime dan hardDeleteTime tidak muncul dalam representasi resource dari resource Objects karena penghapusan sementara tidak didukung untuk objek di bucket zonal.

      • Metadata storageClass objek dalam bucket zonal selalu memiliki nilai RAPID dan tidak dapat ditulis ulang karena bucket zonal harus selalu menggunakan kelas penyimpanan Cepat.

Kuota

Setiap zona per project memiliki kuota byte penyimpanan. Setiap zona per project juga memiliki kuota traffic keluar dari Cloud Storage ke layanan Google. Untuk melihat jumlah kuota egress data atau penyimpanan yang tersedia, lihat halaman Kuota & Batas Sistem. Untuk mempelajari cara meminta lebih banyak kuota, lihat Mengelola kuota Anda.

Praktik terbaik

Untuk membantu mengoptimalkan performa saat menggunakan bucket zona dengan Cloud Storage FUSE, pertahankan handle file terbuka ke objek yang di-mount dan gunakan handle tersebut untuk beberapa operasi. Hal ini menghasilkan performa yang lebih baik karena memungkinkan Cloud Storage FUSE menghindari perjalanan pulang pergi jaringan yang tidak perlu per pembacaan berulang.

Langkah berikutnya