關於 GKE AI 一致性

標準

本文說明 Kubernetes AI 一致性計畫的內容、這項計畫對 Google Kubernetes Engine (GKE) 上的 AI/機器學習工作負載有何重要性，以及如何設定符合一致性規範的 GKE 叢集。

為何 GKE 叢集需要符合 AI 規範

Kubernetes AI 一致性計畫定義了 Kubernetes 叢集的標準，確保叢集能可靠且有效率地執行 AI 和 ML 工作負載。設定 AI/機器學習專用的 Kubernetes 叢集可能很複雜。這通常需要瞭解特定驅動程式安裝、API 版本，以及可能解決非預期錯誤的變通方法。

GKE 等相容平台設計可為您處理這些底層複雜性，提供從設定到部署的途徑。在符合標準的 GKE 版本上建構，可確保您的環境已針對下列條件進行最佳化：

擴充性：根據需求有效擴充或縮減 AI/機器學習工作負載。
效能：充分發揮硬體效能，包括 GPU 和 TPU。
可攜性：在任何符合規範的 Kubernetes 叢集上執行 AI/機器學習應用程式，且變更幅度極小。
互通性：與 AI/機器學習生態系統中的其他工具和架構整合。

如何建立符合 AI 規範的 GKE 叢集

如要建立符合 AI 規範的 GKE 叢集，請完成下列步驟：

請查看 ai-conformance GitHub 存放區，瞭解符合規範的版本清單。
在標準模式下建立 GKE 叢集，並執行相容版本，例如 1.34.0-gke.1662000 以上版本。
在叢集上啟用 Gateway API。

您的叢集現在符合 Kubernetes AI 一致性的強制性規定。

GKE 如何成為符合 Kubernetes AI 標準的平台

GKE 會管理 AI 遵循情況的基礎需求，因此您不必自行管理。下表重點列出 AI/機器學習工作負載的幾項主要功能。其中部分功能預設為啟用，但其他功能 (例如用於群組排程的 Kueue) 則是選用功能，您可以安裝這些功能來強化 AI/機器學習工作負載。

Kubernetes AI 認證計畫的設計宗旨，是隨著 AI/機器學習生態系統演進。我們會根據生態系統的狀態，在每次發布 Kubernetes 次要版本時更新需求。如要查看特定次要版本的完整需求，請前往 ai-conformance GitHub 存放區，並參閱 docs/AIConformance-MINOR_VERSION.yaml 檔案，其中 MINOR_VERSION 是您的特定版本，例如 v1.34。

條件
動態資源分配 (DRA)	除了計數之外，還能更彈性地提出更精細的資源要求。詳情請參閱「關於動態資源分配」。
Kubernetes Gateway API	為推論服務提供進階流量管理功能，可啟用加權流量拆分和標頭式轉送等功能。詳情請參閱「關於 GKE Gateway API」。
幫派排程	確保分散式 AI 工作負載的排程作業不是全部完成，就是完全不執行。GKE 允許安裝並順利運作至少一個群組排程解決方案。如需範例，請參閱「使用 Kueue 部署批次系統」。
加速器叢集自動配置器	根據要求這些加速器的擱置中 Pod，向上和向下擴充含有特定加速器類型的節點群組。詳情請參閱：關於 GKE 叢集自動調度資源功能。關於自訂 ComputeClass。
加速器的水平 Pod 自動配置器 (HPA)	可正確處理使用加速器的 Pod，包括根據與 AI/機器學習工作負載相關的自訂指標，調整這些 Pod 的資源配置。詳情請參閱：在 GPU 上為 LLM 工作負載設定自動調度資源功能。設定 TPU 上 LLM 工作負載的自動調度資源功能。
加速器成效指標	使用標準化、機器可讀取的格式指標端點，公開精細的成效指標。詳情請參閱：監控 GPU 節點工作負載效能。 TPU 工作負載的觀測能力和指標。
標準化監控	提供監控系統，可從以標準格式 (例如 Prometheus 曝光格式) 公開指標的工作負載中，探索及收集指標。詳情請參閱「GKE 可觀測性」。
AI 接線員支援	必須證明平台上至少可安裝一個具有自訂資源定義 (CRD) 的複雜 AI 運算子，且運作穩定可靠。詳情請參閱「在 Google Kubernetes Engine 中使用 Kubeflow 和 Ray 建構機器學習平台」。

關於 GKE AI 一致性 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

為何 GKE 叢集需要符合 AI 規範

如何建立符合 AI 規範的 GKE 叢集

GKE 如何成為符合 Kubernetes AI 標準的平台

後續步驟

關於 GKE AI 一致性