Layanan penyimpanan

Dokumen ini menjelaskan kasus penggunaan dan rekomendasi untuk layanan penyimpanan dalam workload kecerdasan buatan (AI) dan machine learning (ML).

Kasus penggunaan penyimpanan

Layanan penyimpanan dapat digunakan dalam workload AI dan ML berikut:

  • Menyiapkan dan memuat data untuk pelatihan
  • Memuat bobot model untuk inferensi
  • Menyimpan dan memulihkan checkpoint model
  • Memuat image VM
  • Mencatat data
  • Direktori beranda
  • Memuat library, paket, dan dependensi aplikasi

Rekomendasi penyimpanan

Solusi penyimpanan berikut direkomendasikan untuk mengoptimalkan performa sistem AI dan ML:

Layanan penyimpanan Fitur Use cases
Cloud Storage

Ringkasan: Penyimpanan objek yang sangat skalabel, sangat andal, dan berbiaya rendah. Layanan ini cocok untuk menyimpan set data besar yang diperlukan untuk pelatihan dan checkpoint model, serta menghosting model akhir yang telah dilatih. Cloud Storage dengan Cloud Storage FUSE adalah solusi penyimpanan yang direkomendasikan untuk sebagian besar kasus penggunaan AI dan ML karena memungkinkan Anda menskalakan penyimpanan data dengan efisiensi biaya yang lebih baik daripada layanan sistem file.

  • Mendukung data pelatihan skala besar (hingga EB) untuk cluster GPU dan TPU.
  • Mendukung throughput tinggi (bandwidth hingga 1,25 TB/s atau lebih tinggi). Untuk memaksimalkan throughput di Cloud Storage, minta lebih banyak bandwidth.
  • Melalui integrasi dengan Cloud Storage FUSE, bucket Cloud Storage dapat dipasang sebagai sistem file lokal. Driver CSI Cloud Storage FUSE juga memungkinkan Anda memasang bucket sebagai sistem file lokal di Google Kubernetes Engine (GKE) untuk workload AI dan ML yang diskalakan.
  • Gunakan Anywhere Cache untuk menempatkan penyimpanan di zona yang sama dengan workload komputasi, sehingga memberikan throughput yang lebih tinggi (hingga 2,5 TB/dtk), latensi yang lebih rendah, dan fleksibilitas lokasi saat digunakan dengan bucket multi-region.
  • Untuk mengetahui informasi selengkapnya tentang penggunaan Cloud Storage FUSE untuk workload AI dan ML, lihat Mengoptimalkan workload AI dan ML dengan Cloud Storage FUSE.

Direkomendasikan untuk:

  • Efisiensi biaya
  • Pemrosesan dan penyiapan data
  • Pelatihan dan inferensi model
  • Menyimpan dan memulihkan checkpoint model

Tidak direkomendasikan untuk:

  • Aplikasi yang memerlukan kepatuhan POSIX penuh
  • Direktori beranda
Google Cloud Managed Lustre

Ringkasan: Sistem file paralel berperforma tinggi dan terkelola sepenuhnya yang dioptimalkan untuk aplikasi AI dan komputasi berperforma tinggi (HPC). Cocok untuk lingkungan yang memerlukan beberapa node komputasi dengan akses yang cepat dan konsisten ke data bersama untuk simulasi, pemodelan, dan analisis.

  • Melakukan penskalaan hingga kapasitas 8 PB dan throughput hingga 1 TB/dtk.
  • Mendukung ribuan IOPS/TiB.
  • Menghasilkan latensi sub-ms ultra-rendah.
  • Memiliki dukungan POSIX penuh yang memungkinkan migrasi langsung beban kerja AI lokal ke Google Cloud.
  • Untuk mengetahui informasi selengkapnya tentang cara menggunakan Managed Lustre untuk workload AI dan ML, lihat Mengoptimalkan workload AI dan ML dengan Managed Lustre Google Cloud.

Direkomendasikan untuk:

  • Memigrasikan workload AI dan ML ke cloud
  • Simulasi model
  • Pelatihan dan inferensi model
  • Menyimpan dan memulihkan checkpoint model
  • Workload dengan operasi baca dan tulis kecil yang sering
  • Direktori beranda

Tidak direkomendasikan untuk:

  • Workload yang memerlukan lebih dari 8 PB data

Langkah berikutnya