GKE AI 一致性简介

本文档介绍了 Kubernetes AI 一致性计划是什么、该计划对于在 Google Kubernetes Engine (GKE) 上运行的 AI/机器学习工作负载为何重要,以及如何设置符合要求的 GKE 集群。

为何 AI 一致性对 GKE 集群至关重要

Kubernetes AI 一致性计划为 Kubernetes 集群定义了一项标准,以确保它们能够可靠高效地运行 AI 和机器学习工作负载。为 AI/机器学习设置 Kubernetes 集群可能很复杂。这通常需要了解特定的驱动程序安装、API 版本以及针对意外 bug 的潜在解决方法。

GKE 等符合标准的平台旨在为您处理这些底层复杂性,从而提供从设置到部署的途径。通过基于符合标准的 GKE 版本进行构建,您可以放心地确保您的环境针对以下条件进行了优化:

  • 可伸缩性:根据需求高效地扩缩 AI/机器学习工作负载。
  • 性能:充分利用硬件(包括 GPU 和 TPU)。
  • 可移植性:只需进行极少的更改,即可在任何符合标准的 Kubernetes 集群上运行 AI/机器学习应用。
  • 互操作性:可与 AI/ML 生态系统中的其他工具和框架集成。

如何创建符合 AI 要求的 GKE 集群

如需创建符合 AI 要求的 GKE 集群,您需要执行以下操作:

  1. 查看 ai-conformance GitHub 代码库,了解符合要求的版本列表。
  2. 创建以标准模式运行且版本符合要求的 GKE 集群,例如 1.34.0-gke.1662000 或更高版本。
  3. 在集群上启用 Gateway API

您的集群现在符合 Kubernetes AI 一致性的强制性要求。

是什么让 GKE 成为符合 Kubernetes AI 标准的平台

GKE 会管理 AI 合规性的底层要求,因此您无需担心。下表重点介绍了这些针对 AI/ML 工作负载的关键功能。其中一些功能默认处于启用状态,但其他功能(例如用于组调度的 Kueue)是可选的附加功能,您可以安装这些功能来增强 AI/机器学习工作负载。

Kubernetes AI 一致性计划旨在随着 AI/ML 生态系统的发展而不断完善。 这些要求会随着每个 Kubernetes 次要版本的发布而更新,具体取决于生态系统的状态。如需了解特定次版本的完整要求,请在 ai-conformance GitHub 代码库中查看 docs/AIConformance-MINOR_VERSION.yaml 文件,其中 MINOR_VERSION 是您的特定版本,例如 v1.34

要求
动态资源分配 (DRA) 除了数量之外,还支持更灵活、更精细的资源请求。如需了解详情,请参阅动态资源分配简介
Kubernetes Gateway API 为推理服务提供高级流量管理,从而实现基于权重的流量拆分和基于标头的路由等功能。如需了解详情,请参阅 GKE Gateway API 简介
Gang 调度 确保分布式 AI 工作负载的完全调度。GKE 允许安装并成功运行至少一种 gang 调度解决方案。如需查看示例,请参阅使用 Kueue 部署批处理系统
适用于加速器的集群自动扩缩器 根据请求特定加速器的待处理 Pod,纵向扩缩包含这些加速器的节点组。如需了解详情,请参阅:
适用于加速器的 Pod 横向自动扩缩器 (HPA) 可正确处理利用加速器的 Pod,包括能够根据与 AI/机器学习工作负载相关的自定义指标扩缩这些 Pod。如需了解详情,请参阅:
加速器性能指标 通过使用标准化的机器可读格式指标端点,公开精细的性能指标。如需了解详情,请参阅:
标准化监控 提供一个监控系统,能够发现并收集以标准格式(例如 Prometheus 公开格式)公开指标的工作负载的指标。如需了解详情,请参阅 GKE 的可观测性
AI 运算符支持 必须证明至少一个具有自定义资源定义 (CRD) 的复杂 AI 运算符可以安装在平台上,并且可以可靠地运行。如需了解详情,请参阅在 Google Kubernetes Engine 上使用 Kubeflow 和 Ray 构建机器学习平台

后续步骤