Layanan penyimpanan menyediakan arsitektur data penting yang membantu mengaktifkan pelatihan, inferensi, dan penyesuaian model berperforma tinggi dalam ekosistem AI Hypercomputer. Meskipun beberapa layanan penyimpanan tersedia di Google Cloud, pilihan yang paling sesuai bergantung pada persyaratan I/O, throughput, skala, dan latensi untuk kasus penggunaan dalam siklus proses kecerdasan buatan (AI) dan machine learning (ML).
Dokumen ini memperkenalkan dan membandingkan layanan penyimpanan di Google Cloud yang dapat membantu Anda mengoptimalkan performa GPU atau TPU. Layanan ini juga memberikan rekomendasi tentang layanan yang ideal untuk kasus penggunaan AI dan ML tertentu.
Pengantar layanan penyimpanan
Google Cloud menawarkan beberapa solusi penyimpanan yang dioptimalkan untuk kasus penggunaan AI dan ML:
Cloud Storage adalah sistem penyimpanan objek yang dirancang untuk memproses dan menyimpan set data besar, seperti yang diperlukan untuk pelatihan atau inferensi massal. Cloud Storage menawarkan beberapa kemampuan untuk membantu Anda mengoptimalkan penyimpanan data untuk tugas AI dan ML.
Google Cloud Managed Lustre adalah sistem file paralel yang mematuhi POSIX dan terkelola sepenuhnya yang dirancang untuk performa metadata khusus, latensi rendah, dan konkurensi tinggi yang diperlukan untuk workload pelatihan dan inferensi.
Bagian berikut memberikan informasi selengkapnya tentang setiap layanan penyimpanan.
Cloud Storage
Cloud Storage adalah penyimpanan objek dasar yang dirancang untuk menawarkan skalabilitas, ketahanan, dan efisiensi biaya global. Saat menggunakan Cloud Storage, Anda menyimpan data sebagai objek dalam container yang disebut bucket. Cloud Storage menawarkan beberapa kemampuan untuk bucket Anda yang membantu mengoptimalkan performa workload AI dan ML:
Produk dalam keluarga Cloud Storage Rapid dirancang untuk menghilangkan hambatan data bagi beban kerja AI dan ML Anda dengan mendekatkan data Anda ke resource komputasi. Produk ini memungkinkan Anda menempatkan data di zona yang sama dengan workload komputasi dan memungkinkan penskalaan penyimpanan data berperforma tinggi dan hemat biaya untuk cluster GPU atau TPU Anda. Produk Cloud Storage Rapid mencakup hal-hal berikut:
Rapid Bucket memberikan performa baca dan tulis tercepat di Cloud Storage untuk bucket zonal. Objek dalam bucket zonal disimpan di class penyimpanan Cepat, yaitu class penyimpanan berperforma tinggi yang dioptimalkan untuk workload yang intensif I/O. Selain latensi yang lebih rendah, Rapid Bucket memberikan throughput yang jauh lebih tinggi (hingga 15 TB/dtk) dibandingkan dengan produk dan lokasi bucket lain di Cloud Storage.
Rapid Cache mempercepat pembacaan data ke bucket yang ada tanpa memerlukan perubahan kode. Rapid Cache adalah cache baca zona yang didukung SSD untuk bucket Cloud Storage yang digunakan untuk menyajikan data untuk permintaan baca data. Produk ini menawarkan throughput yang lebih tinggi (hingga 2,5 TB/dtk) dan latensi yang lebih rendah daripada bucket tanpa cache.
Rapid Cache sering kali disiapkan untuk bucket multi-region, dengan kapasitas akselerator yang terfragmentasi di seluruh region. Google Cloud Data yang dibaca dari cache dikenai biaya transfer data yang lebih rendah daripada data yang dibaca langsung dari bucket multi-region.
Cloud Storage FUSE adalah adaptor FUSE open source yang memungkinkan Anda memasang bucket sebagai sistem file lokal, sehingga aplikasi dapat berinteraksi dengan penyimpanan objek menggunakan semantik sistem file standar. Kemampuan ini memungkinkan Anda memanfaatkan skalabilitas global, daya tahan, dan efisiensi biaya Cloud Storage dengan akses file lokal. Cloud Storage FUSE dipertahankan dan didukung secara aktif oleh Google.
Cloud Storage FUSE menawarkan beberapa parameter penyesuaian dan caching sisi klien, seperti download paralel. Kemampuan ini dapat menyederhanakan kompleksitas pengembangan dan membantu mencapai performa puncak dengan membagi atau memparalelkan aliran.
Namespace hierarkis memungkinkan struktur sistem file yang sebenarnya dalam bucket dan memberikan kemampuan pengelolaan data yang efisien, termasuk penggantian nama folder atomik dan pencarian file yang lebih cepat saat bucket dipasang dengan Cloud Storage FUSE. Namespace hierarkis menawarkan kueri per detik (QPS) 8 kali lebih tinggi untuk pembacaan dan penulisan objek dibandingkan bucket tanpa namespace hierarkis. Untuk mengetahui informasi selengkapnya tentang manfaat penggunaan namespace hierarkis, lihat manfaat performa dan pengelolaan.
Mengaktifkan namespace hierarkis sangat direkomendasikan jika Anda memiliki workload yang memerlukan pemuatan data dengan throughput tinggi dan checkpointing model yang sering. Namespace hierarkis harus diaktifkan saat membuat bucket zonal dengan Bucket Cepat.
Managed Lustre
Google Cloud Managed Lustre adalah sistem file paralel berperforma tinggi yang mematuhi POSIX dan terkelola sepenuhnya, yang dioptimalkan untuk aplikasi AI dan ML. Arsitektur Managed Lustre sangat cocok untuk workload AI/ML dengan throughput tinggi, latensi rendah, dan konkurensi metadata tinggi, seperti pembuatan checkpoint, propagasi bobot berkecepatan tinggi dalam pembelajaran reinforcement, dan caching Key-Value (KV).
Untuk mengetahui informasi selengkapnya tentang kasus penggunaan umum untuk Managed Lustre, lihat Kasus bisnis.
Perbandingan layanan penyimpanan
Tabel berikut memberikan perbandingan umum Cloud Storage dan Managed Lustre berdasarkan karakteristik utama:
| Karakteristik | Cloud Storage | Managed Lustre |
|---|---|---|
| Arsitektur | Penyimpanan objek
|
Sistem file paralel
|
| Kapasitas penyimpanan | Dapat diskalakan hingga kapasitas EB. |
Dapat diskalakan hingga kapasitas 80 PB, bergantung pada tingkat performa instance. |
| Performa | Mendukung hal berikut:
|
Mendukung hal berikut:
|
| Harga |
Untuk mengetahui detailnya, lihat harga Cloud Storage. |
Untuk mengetahui detailnya, lihat harga Managed Lustre. |
| Rekomendasi berdasarkan persyaratan | Direkomendasikan untuk aplikasi yang memerlukan penyimpanan objek yang dapat diskalakan dan efisiensi biaya umum untuk set data pelatihan, pembuatan titik pemeriksaan multi-tingkat asinkron, dan penyimpanan bobot model. Khususnya, Cloud Storage Rapid direkomendasikan untuk penskalaan data berperforma tinggi dan hemat biaya. |
Direkomendasikan untuk aplikasi yang memerlukan sistem file paralel atau direktori beranda yang sepenuhnya sesuai dengan POSIX. Juga direkomendasikan untuk workload yang sensitif terhadap latensi atau konkurensi metadata tinggi, seperti pelepasan cache KV, checkpoint sinkron, dan propagasi bobot berkecepatan tinggi untuk reinforcement learning. |
Rekomendasi layanan penyimpanan berdasarkan kasus penggunaan
| Kasus penggunaan | Rekomendasi layanan penyimpanan | Alasan rekomendasi |
|---|---|---|
| Melatih dan menyiapkan set data | Rekomendasi utama: Cloud Storage Rapid Bucket | Bucket Cloud Storage menyediakan kapasitas, skala throughput, efisiensi biaya, dan daya tahan yang sering kali diperlukan untuk set data pelatihan dan inferensi dalam volume besar. Saat Anda menggunakan Bucket Cepat untuk membuat bucket zonal, bucket zonal akan mendapatkan manfaat dari throughput yang sangat tinggi (hingga 15 TB/s) dan latensi sub-milidetik untuk file terbuka dengan biaya yang optimal. |
| Rekomendasi sekunder: Managed Lustre | Managed Lustre memberikan latensi sub-milidetik. Ruang kerja ini berguna sebagai ruang kerja khusus yang sangat cepat untuk tugas pelatihan dan penyiapan set data yang paling intensif, dengan latensi rendah dan performa serentak metadata sebagai prioritas tinggi. | |
| Memindahkan atau menyimpan bobot model untuk pembuatan titik pemeriksaan atau transfer bobot | Rekomendasi utama: Managed Lustre | Managed Lustre memberikan latensi sub-milidetik dan akses data paralel, sehingga memungkinkan ribuan pekerja peluncuran menarik file bobot yang sama secara bersamaan tanpa memperlambat. |
| Rekomendasi sekunder: Cloud Storage Rapid Bucket | Rapid Bucket cocok untuk checkpointing multi-tingkat atau terdistribusi asinkron saat digunakan dengan GCSFS melalui fsspec atau Cloud Storage FUSE dengan penyesuaian performa sisi klien.
|
|
| Menyimpan dan mendownload model untuk inferensi | Rekomendasi utama: Cloud Storage Rapid Cache atau Rapid Bucket | Cache Cepat berfungsi sebagai pendorong yang membantu mengurangi cold start inferensi. Dengan Rapid Cache, bobot model dapat dipanaskan terlebih dahulu di zona yang sama dengan node inferensi Anda, sehingga instance inferensi baru dapat mendownload bobot model dengan cepat dan memproses permintaan pertamanya. Rapid Bucket berfungsi sebagai mesin penyimpanan zonal yang dipercepat dan berperforma tinggi, sehingga Anda dapat menempatkan bobot model di zona yang sama dengan fleet inferensi Anda. Untuk penayangan model, sebaiknya gunakan Run:ai Model Streamer for vLLM untuk performa download puncak. Untuk stack inferensi lainnya, mengoptimalkan parameter download paralel Cloud Storage FUSE dapat secara signifikan mengurangi latensi mulai dingin selama download bobot model. |
| Rekomendasi sekunder: Managed Lustre | Managed Lustre memberikan latensi sub-milidetik dan akses data paralel, sehingga menguntungkan model yang sensitif terhadap performa dan penskalaan GPU serentak yang mendownload model yang sama secara bersamaan. | |
| KV cache offloading | Rekomendasi utama: Managed Lustre | Managed Lustre memberikan latensi sub-milidetik dan akses data paralel, sehingga memungkinkan berbagai node "menarik" cache KV dan melanjutkan percakapan tanpa memproses ulang seluruh histori percakapan. |
Langkah berikutnya
Pelajari lebih lanjut Cloud Storage Rapid, serangkaian produk di Cloud Storage yang dirancang untuk AI, ML, dan analisis intensif data.
Pelajari cara mengoptimalkan performa saat menggunakan Cloud Storage FUSE atau driver CSI Cloud Storage FUSE untuk mendownload set data.
Pelajari cara mempercepat pemuatan model di Google Kubernetes Engine.