AI 可用區

本文概要說明 Cloud Storage 的 AI 區域。AI 可用區是專門的 Google Cloud 可用區,旨在為人工智慧 (AI) 和機器學習 (ML) 工作負載提供運算容量。提供大量機器學習加速器 (GPU 和 TPU) 容量。

AI 可用區經過最佳化調整,可處理 AI 和機器學習工作負載,例如:

  • 大規模訓練
  • 小規模訓練、微調、大量推論和重新訓練
  • 即時機器學習推論

如要瞭解 AI 區域的背景資訊,請參閱 Compute Engine 說明文件中的「AI 區域」。

在區域內,AI 區域的地理位置可能與標準 (非 AI) 區域相距甚遠。

AI 區域與其他 Cloud Storage 和 Google Cloud 功能相容。

儲存空間架構建議

建議您使用分層儲存空間架構,兼顧成本、耐久性和效能:

  • 冷儲存層:在標準區域中使用區域 Cloud Storage 值區,做為訓練資料集和模型檢查點的永久高耐用儲存空間 (「真實來源」)。

  • 效能層:使用專屬區域儲存空間服務做為高速快取或暫存空間。這種做法可消除區域間的延遲,並在作業執行期間盡量提高處理量。

建議使用下列儲存空間解決方案,搭配 AI 可用區,盡可能提升 AI 和 ML 系統效能:

儲存服務 說明 用途
Cloud Storage 的「Anywhere Cache」功能

全代管、採用 SSD 的可用區讀取快取,可將 bucket 中經常讀取的資料帶入 AI 區域。

在 AI 區域中,為包含要放送的訓練資料集或模型的區域來源 bucket 建立 Anywhere Cache 執行個體。訓練工作讀取檔案時,檔案會提取到區域內快速快取。後續讀取作業會直接從快取提供,略過區域網路。非常適合模型訓練中重複的資料存取模式,以及低延遲模型服務。

最適合:

  • 大量讀取內容的工作負載
  • 低延遲模型訓練和服務

不適合:

  • 需要完全符合 POSIX 標準的應用程式

最佳做法

使用 AI 區域時,請遵循下列儲存空間最佳做法:

  • 在與運算資源相同的 AI 區域中,佈建效能層。將運算和儲存空間共置,有助於確保 GPU 和 TPU 維持飽和狀態,盡量提高「有效輸送量」(實用輸送量)。

  • 如果是 Anywhere Cache,請在開始主要訓練週期前,預先讀取資料集,以填入或暖機 SSD 支援的快取。

可用的 AI 區域

下表列出 AI 區域和所屬的父項 Google Cloud區域。

地理區域 上層區域 AI 可用區
美國 us-south1 us-south1-ai1b

注意事項

  • 您可以從區域的 AI 專區存取該區域的產品。 Google Cloud Google Cloud 不過,從 AI 可用區存取區域中的服務可能會增加網路延遲,因為 AI 可用區的位置可能與區域標準可用區的位置實體上有所區隔。 Google Cloud

  • 建議您在標準區域 (而非 AI 區域) 執行非機器學習工作負載,因為 AI 區域並非在本地提供所有 Google Cloud 服務。

後續步驟