AI 可用區是專門用於人工智慧和機器學習 (AI 和 ML) 訓練及推論工作負載的可用區。提供大量 ML 加速器 (GPU 和 TPU) 運算資源。
在區域內,AI 可用區的地理位置與標準 (非 AI) 可用區相距甚遠。下圖顯示 AI 可用區 (us-central1-ai1a) 位於 us-central1 區域,相較於標準可用區更遠。

家長專區
每個 AI 區域都會與該地區的標準區域建立關聯,也就是所謂的父項區域。父項區域是標準區域,後置字串與 AI 區域相同。舉例來說,在圖表中,us-central1-a 是 us-central1-ai1a 的父項區域。他們會共用軟體更新時間表,有時也會共用基礎架構。也就是說,影響父項區域的任何軟體或基礎架構問題,也可能影響 AI 區域。設計高可用性解決方案時,請參閱高可用性 (HA) 注意事項,考量對父項可用區的依附元件。
使用 AI 可用區的時機
AI 可用區經過最佳化調整,可以處理 AI 和機器學習工作負載。請按照下列指南,判斷哪些工作負載最適合 AI 可用區,哪些則較適合標準可用區。
建議使用對象:
大規模訓練:由於有大量加速器可用,因此非常適合大規模訓練工作負載,例如大型語言模型 (LLM) 和基礎模型訓練。
小規模訓練、微調、大量推論和重新訓練:AI 區域非常適合需要大量加速器容量的工作負載。
即時機器學習推論:AI 可用區支援即時推論工作負載。效能取決於應用程式設計和模型延遲要求,特別是當工作負載需要往返父項區域的要求時。
不適合:
- 非機器學習工作負載:由於 AI 可用區並未在本地提供所有 Google Cloud 服務,因此建議您在標準可用區中執行非機器學習工作負載。
從 AI 可用區存取服務
您可以從 AI 專區存取區域中的所有 Google Cloud 產品 Google Cloud 。不過,從 AI 可用區存取 Google Cloud 區域中的服務可能會增加網路延遲時間,因為 AI 可用區與區域標準可用區的位置在實體上是分開的。
特定產品支援在 AI 區域中,於本機建立或存取區域資源。如要進一步瞭解這些服務,請參閱下表:
| 產品 | 說明 |
|---|---|
| Google Kubernetes Engine (GKE) | 在 GKE 叢集中使用 AI 區域的設定,包括使用 ComputeClass、節點自動佈建和 GKE Standard 節點集區進行設定。 在 GKE 中使用 AI 區域 |
| Cloud Storage | 為 AI 區域中的工作負載設定物件儲存空間,包括區域儲存空間 (盡量在執行中的作業期間提升效能),以及資料集和模型檢查點的永久儲存空間。 搭配使用 AI 專區與 Cloud Storage |
| Compute Engine | 瞭解如何使用控制台、Google Cloud CLI 和 REST API 找出可用的 AI 區域,包括如何依命名慣例、加速器類型或機器篩選。 找出可用的 AI 區域 |
位置
AI 區域適用於下列位置:
| AI 可用區 | AI 可用區位置 | Google Cloud 區域 | Google Cloud 區域位置 | 上層區域 |
|---|---|---|---|---|
us-south1-ai1b |
美國德州奧斯汀 | us-south1 |
美國德州達拉斯 | us-south1-b |
us-central1-ai1a |
美國內布拉斯加州林肯市 | us-central1 |
美國愛荷華州康索布魯夫 | us-central1-a |
使用 AI 可用區
您可以透過 Google Cloud 控制台、Google Cloud CLI 或 REST 存取 AI 專區。不過,使用Google Cloud 控制台建立 VM 時,您必須手動選取 AI 區域。系統不會為您選取,這與標準區域不同。如要搭配下列功能使用 AI 區域,您必須在設定這些資源時明確選取 AI 區域。
特定 Compute Engine 和 GKE 功能:在特定 Compute Engine 和 GKE 區域功能 (例如區域管理執行個體群組、區域 GKE 叢集) 中,系統不會自動選取 AI 區域。如要進一步瞭解 GKE,請參閱 GKE 說明文件。
非加速器工作負載限制:在 AI 區域中執行僅限 CPU 的 VM 時,請注意 Compute Engine 強制執行的限制。這可能包括 GPU 與 CPU 的比例和預留要求。
Vertex AI:以 GKE 為基礎的 Vertex AI 區域產品必須設定 GKE,才能在區域叢集中納入 AI 專區。您不必選擇加入 Vertex AI。Vertex AI 會管理這項設定。
Google Cloud Service Metadata Locations API:使用 locations.list API 時,請務必啟用
--extraLocationTypes標記,確保 AI 區域只會顯示給打算使用這些區域的使用者。
在 GKE 中使用 AI 可用區
根據預設,GKE 不會在 AI 區域部署工作負載。如要使用 AI 專區,請設定下列其中一個選項:
ComputeClasses:將最高優先順序設為在 AI 區域中要求隨選 TPU。您可以透過 ComputeClass,為工作負載定義優先順序清單,列出硬體設定。如需範例,請參閱「關於 ComputeClass」。
節點自動佈建:在 Pod 規格中使用
nodeSelector或nodeAffinity,指示節點自動佈建功能在 AI 可用區中建立節點集區。如果工作負載未明確指定 AI 區域,節點自動佈建功能只會在建立新節點集區時考量標準區域。這項設定可確保除非您明確設定,否則未執行 AI/ML 模型的工作負載會留在標準可用區。如需使用nodeSelector的資訊清單範例,請參閱設定自動建立節點的預設區域。GKE Standard:如果您直接管理節點集區,請在建立節點集區時,使用
--node-locations旗標中的 AI 區域。如需相關範例,請參閱在 GKE Standard 中部署 TPU 工作負載。
限制
AI 區域不支援下列功能:
AI 可用區的設計注意事項
設計應用程式以使用 AI 區域時,請注意下列事項。
高可用性 (HA) 注意事項
AI 區域會與父項區域共用軟體推出和基礎架構。為確保工作負載的高可用性,請在選取可用區時 (無論是自動或手動),避開下列部署模式:
請避免在 AI 可用區及其父項可用區中部署 HA 工作負載。
請避免在共用相同父項區域的兩個 AI 區域中部署 HA 工作負載。
儲存空間最佳做法
建議您採用分層儲存空間架構,兼顧成本、耐久性和效能:
- 冷儲存層:在標準區域中使用區域 Cloud Storage 值區,以持久且高度耐用的方式儲存訓練資料集和模型檢查點。
效能層:使用專屬區域儲存空間服務做為高速快取或暫存空間。這種做法可消除區域間的延遲,並在工作執行期間盡量提高輸送量。
為確保 GPU 和 TPU 保持飽和狀態,盡可能提高有效輸送量,請在與運算資源相同的 AI 區域中,佈建效能層。
建議使用下列儲存空間解決方案,透過 AI 可用區提升 AI 和機器學習系統的效能:
| 儲存服務 | 說明 | 用途 |
|---|---|---|
| Cloud Storage 的「Anywhere Cache」功能 | 全代管的可用區讀取快取,採用 SSD,可將 bucket 中經常讀取的資料帶入 AI 區域。 | 適用於:
|