AI Hypercomputer 中 AI 和機器學習工作負載適用的儲存空間服務總覽

儲存服務提供必要的資料架構,有助於在 AI Hypercomputer 生態系統中,實現高效能的模型訓練、推論和微調。 Google Cloud提供多種儲存空間服務,但最適合的選擇取決於人工智慧 (AI) 和機器學習 (ML) 生命週期內,各種用途的 I/O、處理量、規模和延遲時間需求。

本文將介紹並比較 Google Cloud 中的儲存空間服務,協助您選擇最適合的服務,進而提升 GPU 或 TPU 效能。此外,這項工具也會針對特定 AI 和機器學習用途,提供理想服務的建議。

儲存服務簡介

Google Cloud 提供多種儲存空間解決方案,可針對 AI 和機器學習應用實例進行最佳化:

  • Cloud Storage 是一種物件儲存系統,專為處理及儲存大量資料集而設計,例如訓練或大量推論所需的資料集。Cloud Storage 提供多項功能,可協助您針對 AI 和機器學習工作,最佳化資料儲存空間。

  • Google Cloud Managed Lustre 是全代管且符合 POSIX 標準的平行檔案系統,專為訓練和推論工作負載設計,可提供專屬的低延遲和高並行中繼資料效能。

以下各節將詳細說明每項儲存空間服務。

Cloud Storage

Cloud Storage 是基礎物件儲存庫,可提供全球擴充性、耐用性和成本效益。使用 Cloud Storage 時,您會將資料儲存為物件,並放在稱為「bucket」的容器中。Cloud Storage 提供多項值區功能,有助於提升 AI 和機器學習工作負載效能:

  • Cloud Storage Rapid 系列產品的設計宗旨,是讓資料更靠近運算資源,藉此清除 AI 和機器學習工作負載的資料瓶頸。這些產品可讓您將資料與運算工作負載放在同一區域,並為 GPU 或 TPU 叢集提供高效能且經濟實惠的資料儲存空間擴充功能。Cloud Storage Rapid 產品包括:

    • Rapid Bucket 可為區域 Bucket 提供 Cloud Storage 中最快的讀取和寫入效能。可用區值區中的物件會儲存在 Rapid Storage,這是專為 I/O 密集型工作負載最佳化的高效能儲存空間級別。除了延遲時間較短,與 Cloud Storage 中的其他產品和儲存空間位置相比,Rapid Bucket 的處理量也大幅提升 (最高可達 15 TB/秒)。

    • Rapid Cache 可加速讀取現有 bucket 中的資料,無須變更程式碼。Rapid Cache 是 Cloud Storage bucket 的 SSD 支援區域讀取快取,用於處理資料讀取要求。與沒有快取的 bucket 相比,這個產品的總處理量較高 (最高可達 2.5 TB/s),延遲時間也較短。

      Rapid Cache 通常是為多區域 bucket 設定,加速器容量會分散在各個 Google Cloud 區域。從快取讀取資料的資料移轉費用,會比直接從多區域 bucket 讀取資料的費用更低。

  • Cloud Storage FUSE 是一種開放原始碼 FUSE 轉接器,可讓您掛接 bucket 做為本機檔案系統,讓應用程式使用標準檔案系統語意與物件儲存空間互動。這項功能可讓您運用 Cloud Storage 的全球擴充性、耐久性和成本效益,同時存取本機檔案。Cloud Storage FUSE 由 Google積極維護及支援。

    Cloud Storage FUSE 提供多個用戶端快取和調整參數,例如平行下載。這些功能可簡化開發複雜度,並透過分片或平行處理串流,協助達到最佳效能。

  • 階層命名空間可在 bucket 中建立真正的檔案系統結構,並提供有效率的資料管理功能,包括重新命名不可分割的資料夾,以及在透過 Cloud Storage FUSE 掛接 bucket 時,加快檔案搜尋速度。相較於沒有階層命名空間的 bucket,階層命名空間的物件讀取和寫入每秒查詢次數 (QPS) 高出 8 倍。如要進一步瞭解使用階層式命名空間的好處,請參閱「效能和管理優勢」。

    如果工作負載需要高處理量資料載入和頻繁的模型檢查點,強烈建議啟用階層命名空間。使用 Rapid Bucket 建立區域 bucket 時,必須啟用階層命名空間。

Managed Lustre

Google Cloud Managed Lustre 是高效能、符合 POSIX 標準的全代管平行檔案系統,專為 AI 和 ML 應用程式最佳化。Managed Lustre 架構非常適合高處理量、低延遲和高元資料並行 AI/機器學習工作負載,例如檢查點、強化學習中的高速權重傳播,以及鍵/值 (KV) 快取。

如要進一步瞭解 Managed Lustre 的常見用途,請參閱「商機」。

儲存空間服務比較

下表從主要特徵的角度,比較 Cloud Storage 和 Managed Lustre 的高階功能:

特性 Cloud Storage Managed Lustre
架構

物件儲存庫

  • 資料預設會儲存在平面值區中。所有類型的水桶 (區域、地區、雙地區和多地區) 都提供異地備援選項,可透過 Cloud Storage Rapid 功能加速。
  • 您可以選擇啟用階層式命名空間,建立支援以檔案系統結構儲存資料的值區。
  • 您可以選擇啟用 Cloud Storage FUSE,將 bucket 掛接為本機檔案系統。

平行檔案系統

  • 資料會以檔案形式儲存在Managed Lustre 執行個體中,並以本機檔案系統的形式掛接在加速器叢集上,不需要進行任何額外調整。
儲存空間容量

容量可擴充至 EB 級。

容量最多可擴充至 80 PB,視執行個體的效能層級而定。

效能

支援下列項目:

  • 使用 Rapid Bucket 開啟檔案時,延遲時間不到一毫秒
  • 使用 Rapid Bucket 達到每 TiB 數千萬次 IOP
  • 使用 Rapid Cache 時,頻寬最高可達 2.5 TB/s
  • 使用 Rapid Bucket 時,頻寬最高可達 15 TB/秒
  • 要求增加頻寬

支援下列項目:

  • 延遲時間不到一毫秒
  • 每 TiB 數千萬個 IOP
  • 頻寬最高可達 10 TB/s
定價

詳情請參閱 Cloud Storage 定價

詳情請參閱Managed Lustre 定價

依據需求提供的建議

建議用於需要可擴充物件儲存庫的應用程式,以及訓練資料集、非同步多層查核點和模型權重儲存空間的一般成本效益。特別是 Cloud Storage Rapid,建議用於高效能且符合成本效益的資料擴充。

建議用於需要完全符合 POSIX 規範的平行檔案系統或主目錄的應用程式。此外,也建議用於延遲時間敏感或中繼資料並行程度高的工作負載,例如 KV 快取卸載、同步檢查點,以及用於強化學習的高速權重傳播。

依據用途提供的儲存空間服務建議

用途 儲存服務建議 建議原因
訓練及準備資料集 主要建議:Cloud Storage Rapid Bucket Cloud Storage 儲存空間值區提供容量、處理量規模、成本效益和耐久性,通常是大量訓練和推論資料集所需的資源。使用 Rapid Bucket 建立區域值區時,區域值區可享有極高的輸送量 (最高 15 TB/s),且開啟檔案的延遲時間不到 1 毫秒,同時維持最佳成本。
次要建議: Managed Lustre Managed Lustre 提供毫秒以下的延遲時間。 對於延遲時間短和中繼資料並行效能是首要考量的訓練和資料集準備工作,這項服務可做為專用的超快速工作區。
移動或儲存模型權重,以進行檢查點或權重轉移 主要建議: Managed Lustre Managed Lustre 提供不到 1 毫秒的延遲時間和並行資料存取,可讓數千名推出作業人員同時提取相同的權重檔案,不會造成速度變慢。
次要建議:Cloud Storage Rapid Bucket 搭配 GCSFS 使用 Rapid Bucket 時,透過 fsspec搭配用戶端效能調整的 Cloud Storage FUSE,非常適合用於非同步多層或分散式檢查點。
儲存及下載模型以進行推論 主要建議:Cloud Storage Rapid Cache 或 Rapid Bucket

Rapid Cache 可做為加速器,有助於減少推論冷啟動。使用 Rapid Cache 時,模型權重可預先在與推論節點相同的區域中預熱,讓新的推論執行個體快速下載模型權重,並處理第一個要求。

Rapid Bucket 是高效能的加速區域儲存引擎,可讓您在與推論機群相同的區域中,找到模型權重。

如要提供模型服務,建議使用 Run:ai Model Streamer for vLLM,以達到最佳下載效能。對於其他推論堆疊,最佳化 Cloud Storage FUSE 平行下載參數可大幅縮短模型權重下載期間的冷啟動延遲時間。

次要建議: Managed Lustre Managed Lustre 提供毫秒以下的延遲時間和並行資料存取,有助於提升對效能要求嚴苛的模型,以及同時下載相同模型的並行 GPU 擴充功能。
KV 快取卸載 主要建議: Managed Lustre Managed Lustre 提供毫秒以下的延遲時間和並行資料存取權,讓不同節點「提取」KV 快取,並繼續對話,不必重新處理整個對話記錄。

後續步驟