儲存服務

本文說明人工智慧 (AI) 和機器學習 (ML) 工作負載的儲存服務用途和建議。

儲存空間用途

儲存服務可能用於下列 AI 和機器學習工作負載:

  • 準備及載入訓練資料
  • 載入模型權重以進行推論
  • 儲存及還原模型檢查點
  • 載入 VM 映像檔
  • 記錄資料
  • 主目錄
  • 載入應用程式程式庫、套件和依附元件

儲存空間建議

建議使用下列儲存空間解決方案,盡可能提升 AI 和機器學習系統的效能:

儲存服務 功能 用途
Cloud Storage

總覽:可擴充性高、耐用性高且成本低的物件儲存空間。適合儲存訓練和模型檢查點所需的大量資料集,以及代管最終訓練的模型。對於大多數 AI 和機器學習用途,建議使用 Cloud Storage 和 Cloud Storage FUSE 做為儲存空間解決方案,因為與檔案系統服務相比,這項服務可讓您以更具成本效益的方式擴充資料儲存空間。

  • 支援 GPU 和 TPU 叢集的大規模 (最多 EB) 訓練資料。
  • 支援高輸送量 (頻寬達 1.25 TB/秒以上)。如要盡可能提高 Cloud Storage 的總處理量,請要求更多頻寬
  • 透過與 Cloud Storage FUSE 的整合,Cloud Storage bucket 可以掛接為本機檔案系統。Cloud Storage FUSE CSI 驅動程式也能在 Google Kubernetes Engine (GKE) 中,將 bucket 掛接為本機檔案系統,以因應 AI 和機器學習工作負載的擴充需求。
  • 使用「任何位置」快取,將儲存空間與運算工作負載放在同一可用區,搭配多區域 bucket 使用時,可提供更高的處理量 (最高 2.5 TB/秒)、更低的延遲,以及位置彈性。
  • 如要進一步瞭解如何將 Cloud Storage FUSE 用於 AI 和 ML 工作負載,請參閱「使用 Cloud Storage FUSE 最佳化 AI 和 ML 工作負載」。

適合

  • 具成本效益
  • 資料處理和準備
  • 模型訓練和推論
  • 儲存及還原模型檢查點

不適合

  • 需要完全符合 POSIX 標準的應用程式
  • 主目錄
Google Cloud Managed Lustre

總覽:高效能全代管平行檔案系統,專為 AI 和高效能運算 (HPC) 應用程式最佳化。適用於需要多個運算節點快速且一致地存取共用資料,以進行模擬、建模和分析的環境。

  • 可擴充至 8 PB 容量,總處理量最高可達 1 TB/秒。
  • 支援每 TiB 數千個 IOPS。
  • 提供超低延遲 (低於 1 毫秒)。
  • 支援完整 POSIX,可將地端 AI 工作負載直接遷移至 Google Cloud。
  • 如要進一步瞭解如何使用 Managed Lustre 處理 AI 和機器學習工作負載,請參閱「使用 Google Cloud Managed Lustre 最佳化 AI 和機器學習工作負載」。

適合

  • 將 AI 和機器學習工作負載遷移至雲端
  • 模型模擬
  • 模型訓練和推論
  • 儲存及還原模型檢查點
  • 需要頻繁讀寫小型檔案的工作負載
  • 主目錄

不適合

  • 需要超過 8 PB 資料的工作負載

後續步驟