AI 可用區

AI 可用區是專門用於人工智慧和機器學習 (AI 和 ML) 訓練及推論工作負載的可用區。提供大量 ML 加速器 (GPU 和 TPU) 運算資源。

在區域內，AI 可用區的地理位置與標準 (非 AI) 可用區相距甚遠。下圖顯示 AI 可用區 (us-central1-ai1a) 位於 us-central1 區域，相較於標準可用區更遠。

家長專區

每個 AI 區域都會與該地區的標準區域建立關聯，也就是所謂的父項區域。父項區域是標準區域，後置字串與 AI 區域相同。舉例來說，在圖表中，us-central1-a 是 us-central1-ai1a 的父項區域。他們會共用軟體更新時間表，有時也會共用基礎架構。也就是說，影響父項區域的任何軟體或基礎架構問題，也可能影響 AI 區域。設計高可用性解決方案時，請參閱高可用性 (HA) 注意事項，考量對父項可用區的依附元件。

使用 AI 可用區的時機

AI 可用區經過最佳化調整，可以處理 AI 和機器學習工作負載。請按照下列指南，判斷哪些工作負載最適合 AI 可用區，哪些則較適合標準可用區。

建議使用對象：

大規模訓練：由於有大量加速器可用，因此非常適合大規模訓練工作負載，例如大型語言模型 (LLM) 和基礎模型訓練。
小規模訓練、微調、大量推論和重新訓練：AI 區域非常適合需要大量加速器容量的工作負載。
即時機器學習推論：AI 可用區支援即時推論工作負載。效能取決於應用程式設計和模型延遲要求，特別是當工作負載需要往返父項區域的要求時。

不適合：

非機器學習工作負載：由於 AI 可用區並未在本地提供所有 Google Cloud 服務，因此建議您在標準可用區中執行非機器學習工作負載。

從 AI 可用區存取服務

您可以從 AI 專區存取區域中的所有 Google Cloud 產品 Google Cloud 。不過，從 AI 可用區存取 Google Cloud 區域中的服務可能會增加網路延遲時間，因為 AI 可用區與區域標準可用區的位置在實體上是分開的。

特定產品支援在 AI 區域中，於本機建立或存取區域資源。如要進一步瞭解這些服務，請參閱下表：

產品	說明
Google Kubernetes Engine (GKE)	在 GKE 叢集中使用 AI 區域的設定，包括使用 ComputeClass、節點自動佈建和 GKE Standard 節點集區進行設定。在 GKE 中使用 AI 區域
Cloud Storage	為 AI 區域中的工作負載設定物件儲存空間，包括區域儲存空間 (盡量在執行中的作業期間提升效能)，以及資料集和模型檢查點的永久儲存空間。搭配使用 AI 專區與 Cloud Storage
Compute Engine	瞭解如何使用控制台、Google Cloud CLI 和 REST API 找出可用的 AI 區域，包括如何依命名慣例、加速器類型或機器篩選。找出可用的 AI 區域

位置

AI 區域適用於下列位置：

AI 可用區	AI 可用區位置	Google Cloud 區域	Google Cloud 區域位置	上層區域
`us-south1-ai1b`	美國德州奧斯汀	`us-south1`	美國德州達拉斯	`us-south1-b`
`us-central1-ai1a`	美國內布拉斯加州林肯市	`us-central1`	美國愛荷華州康索布魯夫	`us-central1-a`

使用 AI 可用區

您可以透過 Google Cloud 控制台、Google Cloud CLI 或 REST 存取 AI 專區。不過，使用Google Cloud 控制台建立 VM 時，您必須手動選取 AI 區域。系統不會為您選取，這與標準區域不同。如要搭配下列功能使用 AI 區域，您必須在設定這些資源時明確選取 AI 區域。

特定 Compute Engine 和 GKE 功能：在特定 Compute Engine 和 GKE 區域功能 (例如區域管理執行個體群組、區域 GKE 叢集) 中，系統不會自動選取 AI 區域。如要進一步瞭解 GKE，請參閱 GKE 說明文件。
非加速器工作負載限制：在 AI 區域中執行僅限 CPU 的 VM 時，請注意 Compute Engine 強制執行的限制。這可能包括 GPU 與 CPU 的比例和預留要求。
Vertex AI：以 GKE 為基礎的 Vertex AI 區域產品必須設定 GKE，才能在區域叢集中納入 AI 專區。您不必選擇加入 Vertex AI。Vertex AI 會管理這項設定。
Google Cloud Service Metadata Locations API：使用 locations.list API 時，請務必啟用 --extraLocationTypes 標記，確保 AI 區域只會顯示給打算使用這些區域的使用者。

在 GKE 中使用 AI 可用區

根據預設，GKE 不會在 AI 區域部署工作負載。如要使用 AI 專區，請設定下列其中一個選項：

ComputeClasses：將最高優先順序設為在 AI 區域中要求隨選 TPU。您可以透過 ComputeClass，為工作負載定義優先順序清單，列出硬體設定。如需範例，請參閱「關於 ComputeClass」。
節點自動佈建：在 Pod 規格中使用 nodeSelector 或 nodeAffinity，指示節點自動佈建功能在 AI 可用區中建立節點集區。如果工作負載未明確指定 AI 區域，節點自動佈建功能只會在建立新節點集區時考量標準區域。這項設定可確保除非您明確設定，否則未執行 AI/ML 模型的工作負載會留在標準可用區。如需使用 nodeSelector 的資訊清單範例，請參閱設定自動建立節點的預設區域。
GKE Standard：如果您直接管理節點集區，請在建立節點集區時，使用 --node-locations 旗標中的 AI 區域。如需相關範例，請參閱在 GKE Standard 中部署 TPU 工作負載。

限制

AI 區域不支援下列功能：

AI 可用區的設計注意事項

設計應用程式以使用 AI 區域時，請注意下列事項。

高可用性 (HA) 注意事項

AI 區域會與父項區域共用軟體推出和基礎架構。為確保工作負載的高可用性，請在選取可用區時 (無論是自動或手動)，避開下列部署模式：

請避免在 AI 可用區及其父項可用區中部署 HA 工作負載。
請避免在共用相同父項區域的兩個 AI 區域中部署 HA 工作負載。

儲存空間最佳做法

建議您採用分層儲存空間架構，兼顧成本、耐久性和效能：

冷儲存層：在標準區域中使用區域 Cloud Storage 值區，以持久且高度耐用的方式儲存訓練資料集和模型檢查點。
效能層：使用專屬區域儲存空間服務做為高速快取或暫存空間。這種做法可消除區域間的延遲，並在工作執行期間盡量提高輸送量。

為確保 GPU 和 TPU 保持飽和狀態，盡可能提高有效輸送量，請在與運算資源相同的 AI 區域中，佈建效能層。

建議使用下列儲存空間解決方案，透過 AI 可用區提升 AI 和機器學習系統的效能：

儲存服務	說明	用途
Cloud Storage 的「Anywhere Cache」功能	全代管的可用區讀取快取，採用 SSD，可將 bucket 中經常讀取的資料帶入 AI 區域。	適用於：大量讀取內容的工作負載低延遲模型訓練和服務不適合：需要完全符合 POSIX 標準的應用程式

儲存服務

說明

用途

Cloud Storage 的「Anywhere Cache」功能

全代管的可用區讀取快取，採用 SSD，可將 bucket 中經常讀取的資料帶入 AI 區域。

適用於：

大量讀取內容的工作負載
低延遲模型訓練和服務