Ringkasan layanan penyimpanan untuk workload AI dan ML di AI Hypercomputer

Layanan penyimpanan menyediakan arsitektur data penting yang membantu mengaktifkan pelatihan, inferensi, dan penyesuaian model berperforma tinggi dalam ekosistem AI Hypercomputer. Meskipun beberapa layanan penyimpanan tersedia di Google Cloud, pilihan yang paling sesuai bergantung pada persyaratan I/O, throughput, skala, dan latensi untuk kasus penggunaan dalam siklus proses kecerdasan buatan (AI) dan machine learning (ML).

Dokumen ini memperkenalkan dan membandingkan layanan penyimpanan di Google Cloud yang dapat membantu Anda mengoptimalkan performa GPU atau TPU. Layanan ini juga memberikan rekomendasi tentang layanan yang ideal untuk kasus penggunaan AI dan ML tertentu.

Pengantar layanan penyimpanan

Google Cloud menawarkan beberapa solusi penyimpanan yang dioptimalkan untuk kasus penggunaan AI dan ML:

Cloud Storage adalah sistem penyimpanan objek yang dirancang untuk memproses dan menyimpan set data besar, seperti yang diperlukan untuk pelatihan atau inferensi massal. Cloud Storage menawarkan beberapa kemampuan untuk membantu Anda mengoptimalkan penyimpanan data untuk tugas AI dan ML.
Google Cloud Managed Lustre adalah sistem file paralel yang mematuhi POSIX dan terkelola sepenuhnya yang dirancang untuk performa metadata khusus, latensi rendah, dan konkurensi tinggi yang diperlukan untuk workload pelatihan dan inferensi.

Bagian berikut memberikan informasi selengkapnya tentang setiap layanan penyimpanan.

Cloud Storage

Cloud Storage adalah penyimpanan objek dasar yang dirancang untuk menawarkan skalabilitas, ketahanan, dan efisiensi biaya global. Saat menggunakan Cloud Storage, Anda menyimpan data sebagai objek dalam container yang disebut bucket. Cloud Storage menawarkan beberapa kemampuan untuk bucket Anda yang membantu mengoptimalkan performa workload AI dan ML:

Produk dalam keluarga Cloud Storage Rapid dirancang untuk menghilangkan hambatan data bagi beban kerja AI dan ML Anda dengan mendekatkan data Anda ke resource komputasi. Produk ini memungkinkan Anda menempatkan data di zona yang sama dengan workload komputasi dan memungkinkan penskalaan penyimpanan data berperforma tinggi dan hemat biaya untuk cluster GPU atau TPU Anda. Produk Cloud Storage Rapid mencakup hal-hal berikut:
- Rapid Bucket memberikan performa baca dan tulis tercepat di Cloud Storage untuk bucket zonal. Objek dalam bucket zonal disimpan di class penyimpanan Cepat, yaitu class penyimpanan berperforma tinggi yang dioptimalkan untuk workload yang intensif I/O. Selain latensi yang lebih rendah, Rapid Bucket memberikan throughput yang jauh lebih tinggi (hingga 15 TB/dtk) dibandingkan dengan produk dan lokasi bucket lain di Cloud Storage.
- Rapid Cache mempercepat pembacaan data ke bucket yang ada tanpa memerlukan perubahan kode. Rapid Cache adalah cache baca zona yang didukung SSD untuk bucket Cloud Storage yang digunakan untuk menyajikan data untuk permintaan baca data. Produk ini menawarkan throughput yang lebih tinggi (hingga 2,5 TB/dtk) dan latensi yang lebih rendah daripada bucket tanpa cache.
  
  Rapid Cache sering kali disiapkan untuk bucket multi-region, dengan kapasitas akselerator yang terfragmentasi di seluruh region. Google Cloud Data yang dibaca dari cache dikenai biaya transfer data yang lebih rendah daripada data yang dibaca langsung dari bucket multi-region.
Cloud Storage FUSE adalah adaptor FUSE open source yang memungkinkan Anda memasang bucket sebagai sistem file lokal, sehingga aplikasi dapat berinteraksi dengan penyimpanan objek menggunakan semantik sistem file standar. Kemampuan ini memungkinkan Anda memanfaatkan skalabilitas global, daya tahan, dan efisiensi biaya Cloud Storage dengan akses file lokal. Cloud Storage FUSE dipertahankan dan didukung secara aktif oleh Google.

Cloud Storage FUSE menawarkan beberapa parameter penyesuaian dan caching sisi klien, seperti download paralel. Kemampuan ini dapat menyederhanakan kompleksitas pengembangan dan membantu mencapai performa puncak dengan membagi atau memparalelkan aliran.
Namespace hierarkis memungkinkan struktur sistem file yang sebenarnya dalam bucket dan memberikan kemampuan pengelolaan data yang efisien, termasuk penggantian nama folder atomik dan pencarian file yang lebih cepat saat bucket dipasang dengan Cloud Storage FUSE. Namespace hierarkis menawarkan kueri per detik (QPS) 8 kali lebih tinggi untuk pembacaan dan penulisan objek dibandingkan bucket tanpa namespace hierarkis. Untuk mengetahui informasi selengkapnya tentang manfaat penggunaan namespace hierarkis, lihat manfaat performa dan pengelolaan.

Mengaktifkan namespace hierarkis sangat direkomendasikan jika Anda memiliki workload yang memerlukan pemuatan data dengan throughput tinggi dan checkpointing model yang sering. Namespace hierarkis harus diaktifkan saat membuat bucket zonal dengan Bucket Cepat.

Managed Lustre

Google Cloud Managed Lustre adalah sistem file paralel berperforma tinggi yang mematuhi POSIX dan terkelola sepenuhnya, yang dioptimalkan untuk aplikasi AI dan ML. Arsitektur Managed Lustre sangat cocok untuk workload AI/ML dengan throughput tinggi, latensi rendah, dan konkurensi metadata tinggi, seperti pembuatan checkpoint, propagasi bobot berkecepatan tinggi dalam pembelajaran reinforcement, dan caching Key-Value (KV).

Untuk mengetahui informasi selengkapnya tentang kasus penggunaan umum untuk Managed Lustre, lihat Kasus bisnis.

Perbandingan layanan penyimpanan

Tabel berikut memberikan perbandingan umum Cloud Storage dan Managed Lustre berdasarkan karakteristik utama:

Karakteristik	Cloud Storage	Managed Lustre
Arsitektur	Penyimpanan objek Data disimpan dalam bucket datar secara default. Semua jenis bucket (zonal, region, dual-region, dan multi-region) menawarkan opsi geo-redundansi yang dapat dipercepat dengan kemampuan Cloud Storage Rapid. Anda dapat mengaktifkan namespace hierarkis untuk membuat bucket yang mendukung penyimpanan data dalam struktur sistem file. Anda dapat mengaktifkan Cloud Storage FUSE secara opsional untuk memasang bucket sebagai sistem file lokal.	Sistem file paralel Data disimpan sebagai file di instance Lustre Terkelola dan di-mount sebagai sistem file lokal di seluruh cluster akselerator Anda tanpa memerlukan penyesuaian tambahan.
Kapasitas penyimpanan	Dapat diskalakan hingga kapasitas EB.	Dapat diskalakan hingga kapasitas 80 PB, bergantung pada tingkat performa instance.
Performa	Mendukung hal berikut: Latensi sub-milidetik untuk membuka file dengan Rapid Bucket Puluhan juta IOPs/TiB dengan Rapid Bucket Bandwidth hingga 2,5 TB/s dengan Rapid Cache Bandwidth hingga 15 TB/s dengan Bucket Cepat Permintaan penambahan bandwidth	Mendukung hal berikut: Latensi sub-milidetik Puluhan juta IOPs/TiB Bandwidth hingga 10 TB/s
Harga	Untuk mengetahui detailnya, lihat harga Cloud Storage.	Untuk mengetahui detailnya, lihat harga Managed Lustre.
Rekomendasi berdasarkan persyaratan	Direkomendasikan untuk aplikasi yang memerlukan penyimpanan objek yang dapat diskalakan dan efisiensi biaya umum untuk set data pelatihan, pembuatan titik pemeriksaan multi-tingkat asinkron, dan penyimpanan bobot model. Khususnya, Cloud Storage Rapid direkomendasikan untuk penskalaan data berperforma tinggi dan hemat biaya.	Direkomendasikan untuk aplikasi yang memerlukan sistem file paralel atau direktori beranda yang sepenuhnya sesuai dengan POSIX. Juga direkomendasikan untuk workload yang sensitif terhadap latensi atau konkurensi metadata tinggi, seperti pelepasan cache KV, checkpoint sinkron, dan propagasi bobot berkecepatan tinggi untuk reinforcement learning.

Rekomendasi layanan penyimpanan berdasarkan kasus penggunaan

Kasus penggunaan	Rekomendasi layanan penyimpanan	Alasan rekomendasi
Melatih dan menyiapkan set data	Rekomendasi utama: Cloud Storage Rapid Bucket	Bucket Cloud Storage menyediakan kapasitas, skala throughput, efisiensi biaya, dan daya tahan yang sering kali diperlukan untuk set data pelatihan dan inferensi dalam volume besar. Saat Anda menggunakan Bucket Cepat untuk membuat bucket zonal, bucket zonal akan mendapatkan manfaat dari throughput yang sangat tinggi (hingga 15 TB/s) dan latensi sub-milidetik untuk file terbuka dengan biaya yang optimal.
Melatih dan menyiapkan set data	Rekomendasi sekunder: Managed Lustre	Managed Lustre memberikan latensi sub-milidetik. Ruang kerja ini berguna sebagai ruang kerja khusus yang sangat cepat untuk tugas pelatihan dan penyiapan set data yang paling intensif, dengan latensi rendah dan performa serentak metadata sebagai prioritas tinggi.
Memindahkan atau menyimpan bobot model untuk pembuatan titik pemeriksaan atau transfer bobot	Rekomendasi utama: Managed Lustre	Managed Lustre memberikan latensi sub-milidetik dan akses data paralel, sehingga memungkinkan ribuan pekerja peluncuran menarik file bobot yang sama secara bersamaan tanpa memperlambat.
	Rekomendasi sekunder: Cloud Storage Rapid Bucket	Rapid Bucket cocok untuk checkpointing multi-tingkat atau terdistribusi asinkron saat digunakan dengan GCSFS melalui `fsspec` atau Cloud Storage FUSE dengan penyesuaian performa sisi klien.
Menyimpan dan mendownload model untuk inferensi	Rekomendasi utama: Cloud Storage Rapid Cache atau Rapid Bucket	Cache Cepat berfungsi sebagai pendorong yang membantu mengurangi cold start inferensi. Dengan Rapid Cache, bobot model dapat dipanaskan terlebih dahulu di zona yang sama dengan node inferensi Anda, sehingga instance inferensi baru dapat mendownload bobot model dengan cepat dan memproses permintaan pertamanya. Rapid Bucket berfungsi sebagai mesin penyimpanan zonal yang dipercepat dan berperforma tinggi, sehingga Anda dapat menempatkan bobot model di zona yang sama dengan fleet inferensi Anda. Untuk penayangan model, sebaiknya gunakan Run:ai Model Streamer for vLLM untuk performa download puncak. Untuk stack inferensi lainnya, mengoptimalkan parameter download paralel Cloud Storage FUSE dapat secara signifikan mengurangi latensi mulai dingin selama download bobot model.
Menyimpan dan mendownload model untuk inferensi	Rekomendasi sekunder: Managed Lustre	Managed Lustre memberikan latensi sub-milidetik dan akses data paralel, sehingga menguntungkan model yang sensitif terhadap performa dan penskalaan GPU serentak yang mendownload model yang sama secara bersamaan.
KV cache offloading	Rekomendasi utama: Managed Lustre	Managed Lustre memberikan latensi sub-milidetik dan akses data paralel, sehingga memungkinkan berbagai node "menarik" cache KV dan melanjutkan percakapan tanpa memproses ulang seluruh histori percakapan.

Langkah berikutnya

Pelajari lebih lanjut Cloud Storage Rapid, serangkaian produk di Cloud Storage yang dirancang untuk AI, ML, dan analisis intensif data.
Pelajari cara mengoptimalkan performa saat menggunakan Cloud Storage FUSE atau driver CSI Cloud Storage FUSE untuk mendownload set data.
Pelajari cara mempercepat pemuatan model di Google Kubernetes Engine.

Ringkasan layanan penyimpanan untuk workload AI dan ML di AI Hypercomputer Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.