Cloud TPU 資料的儲存空間選項

本文說明在 Cloud TPU 上訓練模型時可用的資料儲存選項。

簡介

Cloud TPU 需要資料儲存空間,用於:

  • 下載及預先處理資料集
  • 主機輸入管道處理
  • 模型訓練輸入內容
  • 模型訓練輸出內容

TPU 應用程式資料和訓練資料集的儲存空間選項如下:

如要進一步瞭解如何管理儲存空間,請參閱下列頁面:

耐用的區塊儲存空間

持久區塊儲存空間 (也稱為「磁碟」或「磁碟區」) 可用於儲存資料,以便在停止、暫停或刪除 TPU VM 後保留資料。即使 TPU VM 發生當機或故障,您仍可使用耐久型區塊儲存空間。您可以使用 TPU VM 開機磁碟,或將其他區塊儲存空間連結至 TPU。

在下列情況下,您可能需要連接額外磁碟:

  • 訓練資料集的大小超過 TPU 開機磁碟的大小。
  • 您擁有唯讀資料,並想使用 Hyperdisk ML 磁碟區加快讀取存取速度。

TPU 代別和支援的磁碟類型

下表列出各代 TPU 支援的磁碟類型:

TPU 代別 支援的磁碟類型
TPU7x Hyperdisk Balanced、Hyperdisk ML
TPU v6e Hyperdisk Balanced、Hyperdisk ML
TPU v5p 平衡型永久磁碟、Hyperdisk ML
TPU v5e 平衡型永久磁碟、Hyperdisk ML

TPU VM 開機磁碟

根據預設,每個 TPU VM 都有一個 10 GB 的開機磁碟。建立 VM 時,您可以設定較大的開機磁碟。詳情請參閱「建立自訂開機磁碟」。開機磁碟包含作業系統、TPU 驅動程式和程式庫。只要資料總大小不超過開機磁碟的可用空間,開機磁碟也可以暫時儲存下載的資料集,以進行前處理,以及儲存模型輸入和輸出資料。

如果應用程式需要的儲存空間超出開機磁碟預設值,可以為 TPU VM 執行個體新增一或多個耐久性磁碟。詳情請參閱:

附加的儲存空間

Hyperdisk 和永久磁碟都是耐用的網路儲存裝置,可供 VM 執行個體存取,就像是桌上型電腦或伺服器中的實體磁碟。這兩種磁碟都是獨立於 VM 執行個體建立,因此即使刪除 VM,資料也不會遺失。

與永久磁碟相比,Hyperdisk 的優點包括可自訂效能、更高的 IOPS 和總處理量上限。如要進一步瞭解 Hyperdisk 和永久磁碟,請參閱「選擇磁碟類型」。

將磁碟連接至具有多主機 TPU VM 區塊的 MIG 時,系統會將磁碟連接至該 TPU 區塊中的每個 VM。如要避免兩部以上的 TPU VM 同時寫入磁碟,您必須將連接至多主機 TPU 配量的所有磁碟設為唯讀。唯讀磁碟可用於儲存資料集,以便在 TPU 節點上處理。由於 Hyperdisk Balanced 不支援唯讀模式,因此您只能將 Hyperdisk Balanced 磁碟區連接至單一 TPU VM 執行個體。

如要進一步瞭解如何使用耐久型區塊儲存空間,請參閱「將永久磁碟新增至 VM」和「新增 Hyperdisk」。

磁碟備份

如果 TPU VM 停滯在「不明」狀態,您可能難以從開機磁碟擷取資料,也無法復原已刪除的資料。使用其他儲存空間選項備份資料,例如 Cloud Storage 值區。

如果您將資料儲存在連結的磁碟上,可以使用磁碟快照,以增量方式備份磁碟上的資料。TPU VM 開機磁碟不支援磁碟快照。詳情請參閱「關於磁碟快照」一文。

Cloud Storage 值區

Cloud Storage 值區是具彈性、擴充性和耐用性的儲存空間選項,適用於 VM 執行個體。如果訓練工作不需要低延遲的耐久區塊儲存空間,您可以將資料集儲存在 Cloud Storage 值區中。

Cloud Storage 值區的效能取決於您選取的儲存空間級別和您的執行個體相關的值區位置。

在與 TPU VM 相同的可用區中建立 Cloud Storage 值區,可提供與耐用區塊儲存空間相當的效能,但延遲時間較長,總處理量較不一致。

所有 Cloud Storage bucket 都內建備援空間,就算遇上設備毀損也能保護您的資料,並透過資料中心維護事件確保資料可用性。Cloud Storage 會計算所有作業的檢查碼,確保讀取內容與寫入內容相符。

與耐用型區塊儲存空間不同,Cloud Storage 值區不限於您的執行個體所在的區域。此外,您可以同時從多個執行個體讀寫資料至值區。舉例來說,您可以在多個區域內設定執行個體,並在同一值區內讀寫資料,而非將資料複製到多個區域中的耐久型區塊儲存空間。

詳情請參閱「連結至 Cloud Storage bucket」。

Cloud Storage FUSE

Cloud Storage FUSE 可讓您掛接及存取 Cloud Storage 值區,做為本機檔案系統。應用程式就能透過標準檔案系統語意,讀取及寫入 bucket 中的物件。

如要進一步瞭解 Cloud Storage FUSE 的運作方式,以及 Cloud Storage FUSE 作業如何對應至 Cloud Storage 作業,請參閱 Cloud Storage FUSE 說明文件。如要進一步瞭解如何使用 Cloud Storage FUSE,例如如何安裝 Cloud Storage FUSE CLI 和掛接值區,請前往 GitHub

Filestore 檔案共用區

Filestore 檔案共用區是適用於 Compute Engine 的全代管網路附加儲存裝置 (NAS)。Filestore 可相容於現有企業應用程式,並支援任何 NFSv3 相容用戶端。

Filestore 具有低延遲時間的特性,能夠迅速處理檔案作業。對於容易受到延遲時間影響的工作負載,Filestore 支援最高 100 TiB 的容量,處理量每秒高達 25 GiB,IOPS 則可達 72 萬,效能變異極小。

您可以使用 Filestore 在 TPU VM 上掛接檔案共用區

Managed Lustre 檔案共用

Managed Lustre 是全代管平行檔案系統,適用於資料密集型 AI 和 HPC 工作負載。不僅效能卓越,還提供 PB 級的儲存容量,並符合 POSIX 標準。

使用 Managed Lustre 時,您可以在 TPU VM 上掛接檔案共用區。特別適合處理機器學習工作負載的大型資料集和高處理量需求,可有效率地進行訓練和推論。

詳情請參閱 Managed Lustre 說明文件

後續步驟