Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

關於 AI 和機器學習工作負載的儲存空間服務

儲存空間服務提供必要的資料架構，有助於在 AI Hypercomputer 生態系統中，實現高效能的模型訓練、推論和微調。 Google Cloud提供多種儲存空間服務，但最適合的選擇取決於人工智慧 (AI) 和機器學習 (ML) 生命週期內用例的 I/O、處理量、規模和延遲時間需求。

本文將介紹並比較 Google Cloud 中的儲存空間服務，協助您選擇最適合的服務，進而提升 GPU 或 TPU 效能。此外，這項工具也會針對特定 AI 和機器學習用途，提供理想服務的建議。

儲存服務簡介

Google Cloud 提供多種儲存空間解決方案，可針對 AI 和機器學習應用實例進行最佳化：

Cloud Storage 是一種物件儲存系統，專為處理及儲存大量資料集而設計，例如訓練或大量推論所需的資料集。Cloud Storage 提供多項功能，可協助您針對 AI 和機器學習工作，最佳化資料儲存空間。
Google Cloud Managed Lustre 是全代管且符合 POSIX 標準的平行檔案系統，專為訓練和推論工作負載設計，可提供低延遲和高並行中繼資料效能。

以下各節將詳細說明每項儲存空間服務。

Cloud Storage

Cloud Storage 是基礎物件儲存庫，可提供全球擴充性、耐用性和成本效益。使用 Cloud Storage 時，您會將資料儲存為物件，並放在稱為「值區」的容器中。Cloud Storage 為值區提供多種功能，有助於提升 AI 和機器學習工作負載效能：

Cloud Storage Rapid 系列產品的設計宗旨，是讓資料更靠近運算資源，藉此清除 AI 和機器學習工作負載的資料瓶頸。這些產品可讓您將資料與運算工作負載放在同一可用區，並為 GPU 或 TPU 叢集提供高效能且經濟實惠的資料儲存空間擴充功能。Cloud Storage Rapid 產品包括：
- 快速值區是 Cloud Storage 中讀寫效能最快的區域值區。區域值區中的物件會儲存在快速儲存空間級別，這個高效能儲存空間級別專為 I/O 密集型工作負載最佳化。除了延遲時間較短之外，與 Cloud Storage 中的其他產品和值區位置相比，快速值區的輸送量也明顯較高 (最高可達 15 TB/s)。
- 快速快取可加快現有 bucket 的資料讀取速度，且不需要變更程式碼。快速快取是 Cloud Storage bucket 的可用區讀取快取，採用 SSD，用於處理資料讀取要求。與沒有快取的 bucket 相比，這項產品的處理量更高 (最高 2.5 TB/秒)，延遲時間也更短。
  
  Rapid Cache 通常是為多區域 bucket 設定，加速器容量會分散在各個 Google Cloud 區域。從快取讀取資料產生的資料移轉費用，會比直接從多區域 bucket 讀取資料還低。
Cloud Storage FUSE 是開放原始碼 FUSE 轉接器，可讓您將 bucket 掛接為本機檔案系統，讓應用程式使用標準檔案系統語意與物件儲存空間互動。這項功能可讓您透過本機檔案存取權，充分運用 Cloud Storage 的全球擴充性、耐久性和成本效益。Cloud Storage FUSE 由 Google主動維護及支援。

Cloud Storage FUSE 提供多個用戶端快取和調整參數，例如平行下載。這些功能可簡化開發複雜度，並透過分片或平行處理串流，協助達到最高效能。
階層式命名空間可在 bucket 中啟用真正的檔案系統結構，並提供有效率的資料管理功能，包括重新命名不可分割的資料夾，以及在 bucket 透過 Cloud Storage FUSE 掛接時，更快地查閱檔案。與沒有階層式命名空間的 bucket 相比，階層式命名空間的物件讀取和寫入每秒查詢次數 (QPS) 高出 8 倍。如要進一步瞭解使用階層式命名空間的好處，請參閱效能和管理優勢。

如果您有需要高處理量資料載入和頻繁模型檢查點的工作負載，強烈建議啟用階層命名空間。使用 Rapid Bucket 建立區域 bucket 時，必須啟用階層命名空間。

Managed Lustre

Google Cloud Managed Lustre 是高效能、符合 POSIX 標準的全代管平行檔案系統，專為 AI 和 ML 應用程式最佳化。Managed Lustre 架構非常適合高處理量、低延遲和高並行中繼資料的 AI/機器學習工作負載，例如查核點、強化學習中的高速權重傳播，以及鍵/值 (KV) 快取。

如要進一步瞭解 Managed Lustre 的常見用途，請參閱「商機」。

儲存空間服務比較

下表從主要特徵的角度，比較 Cloud Storage 和 Managed Lustre 的高階功能：

特性	Cloud Storage	Managed Lustre
架構	物件儲存庫資料預設會儲存在扁平值區中。所有值區類型 (區域、單一地區、雙區域和多區域) 都提供異地備援選項，可透過 Cloud Storage Rapid 功能加快備援速度。您可以選擇啟用階層式命名空間，建立支援以檔案系統結構儲存資料的值區。您可以選擇啟用 Cloud Storage FUSE，將 bucket 掛接為本機檔案系統。	平行檔案系統資料會以檔案形式儲存在Managed Lustre 執行個體中，並以本機檔案系統的形式掛接在加速器叢集上，無需進行任何額外調整。
儲存空間容量	容量可擴充至 EB 級。	容量最高可達 80 PB，視執行個體的效能層級而定。
效能	支援下列項目：使用 Rapid Bucket 開啟檔案時，延遲時間不到 1 毫秒使用 Rapid Bucket 達到每 TiB 數千萬次 IOP 使用 Rapid Cache 時，頻寬最高可達 2.5 TB/s 使用 Rapid Bucket 時，頻寬最高可達 15 TB/s 要求增加頻寬	支援下列項目：延遲時間不到一毫秒每 TiB 數千萬個 IOPS 頻寬最高可達 10 TB/s
定價	詳情請參閱 Cloud Storage 定價。	詳情請參閱 Managed Lustre 定價。
依據需求提供的建議	建議用於需要可擴充物件儲存庫的應用程式，以及訓練資料集、非同步多層查核點和模型權重儲存空間的一般成本效益。特別是 Cloud Storage Rapid，建議用於高效能且符合成本效益的資料擴充。	建議用於需要完全符合 POSIX 規範的平行檔案系統或主目錄的應用程式。此外，也建議用於延遲時間敏感或中繼資料並行處理量高的工作負載，例如 KV 快取卸載、同步檢查點，以及用於強化學習的高速權重傳播。

依據用途提供的儲存空間服務建議

用途	儲存服務建議	建議原因
訓練及準備資料集	主要建議：Cloud Storage Rapid Bucket	Cloud Storage 儲存空間值區提供容量、處理量規模、成本效益和耐久性，通常是大量訓練和推論資料集所需的資源。使用 Rapid Bucket 建立區域值區時，區域值區可享有極高的輸送量 (最高 15 TB/s)，且開啟檔案的延遲時間不到 1 毫秒，同時成本也最划算。
訓練及準備資料集	次要建議： Managed Lustre	Managed Lustre 提供毫秒以下的延遲時間，可做為專屬的超快速工作區，用於延遲時間和中繼資料並行效能至關重要的密集型訓練和資料集準備工作。
移動或儲存模型權重，以進行檢查點或權重轉移	主要建議： Managed Lustre	Managed Lustre 提供不到 1 毫秒的延遲時間和並行資料存取，可讓數千名推出作業人員同時提取相同的權重檔案，不會造成速度變慢。
移動或儲存模型權重，以進行檢查點或權重轉移	次要建議：Cloud Storage Rapid Bucket	搭配 GCSFS 使用 Rapid Bucket 時，透過 `fsspec` 或使用 Cloud Storage FUSE 並調整用戶端效能，非常適合用於非同步多層或分散式檢查點。
儲存及下載模型以進行推論	主要建議：Cloud Storage Rapid Cache 或 Rapid Bucket	Rapid Cache 可做為加速器，有助於減少推論冷啟動。使用 Rapid Cache 時，模型權重可預先在與推論節點相同的區域中預熱，讓新的推論執行個體快速下載模型權重，並處理第一個要求。 Rapid Bucket 是高效能的加速區域儲存引擎，可讓您在與推論機群相同的區域中，找到模型權重。如要提供模型服務，建議使用 Run:ai Model Streamer for vLLM，以達到最佳下載效能。對於其他推論堆疊，最佳化 Cloud Storage FUSE 平行下載參數可大幅縮短模型權重下載期間的冷啟動延遲時間。
儲存及下載模型以進行推論	次要建議： Managed Lustre	Managed Lustre 提供毫秒以下的延遲時間和並行資料存取，有助於提升對效能要求嚴苛的模型，以及同時下載相同模型的並行 GPU 擴充作業。
KV 快取卸載	主要建議： Managed Lustre	Managed Lustre 提供不到一毫秒的延遲時間和並行資料存取權，因此不同節點可以「提取」KV 快取，並繼續對話，不必重新處理整個對話記錄。

後續步驟

進一步瞭解 Cloud Storage Rapid，這是 Cloud Storage 的產品系列，專為 AI、機器學習和資料密集型分析而設計。
瞭解如何在使用 Cloud Storage FUSE 或 Cloud Storage FUSE CSI 驅動程式下載資料集時，獲得最佳效能。
瞭解如何在 Google Kubernetes Engine 上加快模型載入速度。

關於 AI 和機器學習工作負載的儲存空間服務 透過集合功能整理內容 你可以依據偏好儲存及分類內容。