為何 GKE 叢集需要符合 AI 規範
Kubernetes AI 一致性計畫定義了 Kubernetes 叢集的標準,確保叢集能可靠且有效率地執行 AI 和 ML 工作負載。設定 AI/機器學習專用的 Kubernetes 叢集可能很複雜。這通常需要瞭解特定驅動程式安裝、API 版本,以及可能解決非預期錯誤的變通方法。
GKE 等相容平台設計可為您處理這些底層複雜性,提供從設定到部署的途徑。在符合標準的 GKE 版本上建構,可確保您的環境已針對下列條件進行最佳化:
- 擴充性:根據需求有效擴充或縮減 AI/機器學習工作負載。
- 效能:充分發揮硬體效能,包括 GPU 和 TPU。
- 可攜性:在任何符合規範的 Kubernetes 叢集上執行 AI/機器學習應用程式,且變更幅度極小。
- 互通性:與 AI/機器學習生態系統中的其他工具和架構整合。
如何建立符合 AI 規範的 GKE 叢集
如要建立符合 AI 規範的 GKE 叢集,請完成下列步驟:
- 請查看
ai-conformanceGitHub 存放區,瞭解符合規範的版本清單。 - 在標準模式下建立 GKE 叢集,並執行相容版本,例如 1.34.0-gke.1662000 以上版本。
- 在叢集上啟用 Gateway API。
您的叢集現在符合 Kubernetes AI 一致性的強制性規定。
GKE 如何成為符合 Kubernetes AI 標準的平台
GKE 會管理 AI 遵循情況的基礎需求,因此您不必自行管理。 下表重點列出 AI/機器學習工作負載的幾項主要功能。其中部分功能預設為啟用,但其他功能 (例如用於群組排程的 Kueue) 則是選用功能,您可以安裝這些功能來強化 AI/機器學習工作負載。
Kubernetes AI 認證計畫的設計宗旨,是隨著 AI/機器學習生態系統演進。
我們會根據生態系統的狀態,在每次發布 Kubernetes 次要版本時更新需求。如要查看特定次要版本的完整需求,請前往 ai-conformance GitHub 存放區,並參閱 docs/AIConformance-MINOR_VERSION.yaml 檔案,其中 MINOR_VERSION 是您的特定版本,例如 v1.34。
| 條件 | |
|---|---|
| 動態資源分配 (DRA) | 除了計數之外,還能更彈性地提出更精細的資源要求。詳情請參閱「關於動態資源分配」。 |
| Kubernetes Gateway API | 為推論服務提供進階流量管理功能,可啟用加權流量拆分和標頭式轉送等功能。詳情請參閱「關於 GKE Gateway API」。 |
| 幫派排程 | 確保分散式 AI 工作負載的排程作業不是全部完成,就是完全不執行。GKE 允許安裝並順利運作至少一個群組排程解決方案。如需範例,請參閱「使用 Kueue 部署批次系統」。 |
| 加速器叢集自動配置器 | 根據要求這些加速器的擱置中 Pod,向上和向下擴充含有特定加速器類型的節點群組。詳情請參閱: |
| 加速器的水平 Pod 自動配置器 (HPA) | 可正確處理使用加速器的 Pod,包括根據與 AI/機器學習工作負載相關的自訂指標,調整這些 Pod 的資源配置。詳情請參閱: |
| 加速器成效指標 | 使用標準化、機器可讀取的格式指標端點,公開精細的成效指標。詳情請參閱: |
| 標準化監控 | 提供監控系統,可從以標準格式 (例如 Prometheus 曝光格式) 公開指標的工作負載中,探索及收集指標。詳情請參閱「GKE 可觀測性」。 |
| AI 接線員支援 | 必須證明平台上至少可安裝一個具有自訂資源定義 (CRD) 的複雜 AI 運算子,且運作穩定可靠。詳情請參閱「在 Google Kubernetes Engine 中使用 Kubeflow 和 Ray 建構機器學習平台」。 |
後續步驟
- 如要進一步瞭解這項計畫,請參閱 Kubernetes AI 規範存放區。
- 閱讀 GKE 上的 AI/機器學習工作負載簡介。
- 進一步瞭解 GKE 的 AI 模型推論功能,並試用推論範例。
- 試用在 GKE Standard 模式中,使用 GPU 訓練模型的範例。