關於 GKE AI 一致性

本文說明 Kubernetes AI 一致性計畫的內容、這項計畫對 Google Kubernetes Engine (GKE) 上的 AI/機器學習工作負載有何重要性,以及如何設定符合一致性規範的 GKE 叢集。

為何 GKE 叢集需要符合 AI 規範

Kubernetes AI 一致性計畫定義了 Kubernetes 叢集的標準,確保叢集能可靠且有效率地執行 AI 和 ML 工作負載。設定 AI/機器學習專用的 Kubernetes 叢集可能很複雜。這通常需要瞭解特定驅動程式安裝、API 版本,以及可能解決非預期錯誤的變通方法。

GKE 等相容平台設計可為您處理這些底層複雜性,提供從設定到部署的途徑。在符合標準的 GKE 版本上建構,可確保您的環境已針對下列條件進行最佳化:

  • 擴充性:根據需求有效擴充或縮減 AI/機器學習工作負載。
  • 效能:充分發揮硬體效能,包括 GPU 和 TPU。
  • 可攜性:在任何符合規範的 Kubernetes 叢集上執行 AI/機器學習應用程式,且變更幅度極小。
  • 互通性:與 AI/機器學習生態系統中的其他工具和架構整合。

如何建立符合 AI 規範的 GKE 叢集

如要建立符合 AI 規範的 GKE 叢集,請完成下列步驟:

  1. 請查看 ai-conformance GitHub 存放區,瞭解符合規範的版本清單。
  2. 標準模式下建立 GKE 叢集,並執行相容版本,例如 1.34.0-gke.1662000 以上版本。
  3. 在叢集上啟用 Gateway API

您的叢集現在符合 Kubernetes AI 一致性的強制性規定。

GKE 如何成為符合 Kubernetes AI 標準的平台

GKE 會管理 AI 遵循情況的基礎需求,因此您不必自行管理。 下表重點列出 AI/機器學習工作負載的幾項主要功能。其中部分功能預設為啟用,但其他功能 (例如用於群組排程的 Kueue) 則是選用功能,您可以安裝這些功能來強化 AI/機器學習工作負載。

Kubernetes AI 認證計畫的設計宗旨,是隨著 AI/機器學習生態系統演進。 我們會根據生態系統的狀態,在每次發布 Kubernetes 次要版本時更新需求。如要查看特定次要版本的完整需求,請前往 ai-conformance GitHub 存放區,並參閱 docs/AIConformance-MINOR_VERSION.yaml 檔案,其中 MINOR_VERSION 是您的特定版本,例如 v1.34

條件
動態資源分配 (DRA) 除了計數之外,還能更彈性地提出更精細的資源要求。詳情請參閱「關於動態資源分配」。
Kubernetes Gateway API 為推論服務提供進階流量管理功能,可啟用加權流量拆分和標頭式轉送等功能。詳情請參閱「關於 GKE Gateway API」。
幫派排程 確保分散式 AI 工作負載的排程作業不是全部完成,就是完全不執行。GKE 允許安裝並順利運作至少一個群組排程解決方案。如需範例,請參閱「使用 Kueue 部署批次系統」。
加速器叢集自動配置器 根據要求這些加速器的擱置中 Pod,向上和向下擴充含有特定加速器類型的節點群組。詳情請參閱:
加速器的水平 Pod 自動配置器 (HPA) 可正確處理使用加速器的 Pod,包括根據與 AI/機器學習工作負載相關的自訂指標,調整這些 Pod 的資源配置。詳情請參閱:
加速器成效指標 使用標準化、機器可讀取的格式指標端點,公開精細的成效指標。詳情請參閱:
標準化監控 提供監控系統,可從以標準格式 (例如 Prometheus 曝光格式) 公開指標的工作負載中,探索及收集指標。詳情請參閱「GKE 可觀測性」。
AI 接線員支援 必須證明平台上至少可安裝一個具有自訂資源定義 (CRD) 的複雜 AI 運算子,且運作穩定可靠。詳情請參閱「在 Google Kubernetes Engine 中使用 Kubeflow 和 Ray 建構機器學習平台」。

後續步驟