为何 AI 一致性对 GKE 集群至关重要
Kubernetes AI 一致性计划为 Kubernetes 集群定义了一项标准,以确保它们能够可靠高效地运行 AI 和机器学习工作负载。为 AI/机器学习设置 Kubernetes 集群可能很复杂。这通常需要了解特定的驱动程序安装、API 版本以及针对意外 bug 的潜在解决方法。
GKE 等符合标准的平台旨在为您处理这些底层复杂性,从而提供从设置到部署的途径。通过基于符合标准的 GKE 版本进行构建,您可以放心地确保您的环境针对以下条件进行了优化:
- 可伸缩性:根据需求高效地扩缩 AI/机器学习工作负载。
- 性能:充分利用硬件(包括 GPU 和 TPU)。
- 可移植性:只需进行极少的更改,即可在任何符合标准的 Kubernetes 集群上运行 AI/机器学习应用。
- 互操作性:可与 AI/ML 生态系统中的其他工具和框架集成。
如何创建符合 AI 要求的 GKE 集群
如需创建符合 AI 要求的 GKE 集群,您需要执行以下操作:
- 查看
ai-conformanceGitHub 代码库,了解符合要求的版本列表。 - 创建以标准模式运行且版本符合要求的 GKE 集群,例如 1.34.0-gke.1662000 或更高版本。
- 在集群上启用 Gateway API。
您的集群现在符合 Kubernetes AI 一致性的强制性要求。
是什么让 GKE 成为符合 Kubernetes AI 标准的平台
GKE 会管理 AI 合规性的底层要求,因此您无需担心。下表重点介绍了这些针对 AI/ML 工作负载的关键功能。其中一些功能默认处于启用状态,但其他功能(例如用于组调度的 Kueue)是可选的附加功能,您可以安装这些功能来增强 AI/机器学习工作负载。
Kubernetes AI 一致性计划旨在随着 AI/ML 生态系统的发展而不断完善。
这些要求会随着每个 Kubernetes 次要版本的发布而更新,具体取决于生态系统的状态。如需了解特定次版本的完整要求,请在 ai-conformance GitHub 代码库中查看 docs/AIConformance-MINOR_VERSION.yaml 文件,其中 MINOR_VERSION 是您的特定版本,例如 v1.34。
| 要求 | |
|---|---|
| 动态资源分配 (DRA) | 除了数量之外,还支持更灵活、更精细的资源请求。如需了解详情,请参阅动态资源分配简介。 |
| Kubernetes Gateway API | 为推理服务提供高级流量管理,从而实现基于权重的流量拆分和基于标头的路由等功能。如需了解详情,请参阅 GKE Gateway API 简介。 |
| Gang 调度 | 确保分布式 AI 工作负载的完全调度。GKE 允许安装并成功运行至少一种 gang 调度解决方案。如需查看示例,请参阅使用 Kueue 部署批处理系统。 |
| 适用于加速器的集群自动扩缩器 | 根据请求特定加速器的待处理 Pod,纵向扩缩包含这些加速器的节点组。如需了解详情,请参阅: |
| 适用于加速器的 Pod 横向自动扩缩器 (HPA) | 可正确处理利用加速器的 Pod,包括能够根据与 AI/机器学习工作负载相关的自定义指标扩缩这些 Pod。如需了解详情,请参阅: |
| 加速器性能指标 | 通过使用标准化的机器可读格式指标端点,公开精细的性能指标。如需了解详情,请参阅: |
| 标准化监控 | 提供一个监控系统,能够发现并收集以标准格式(例如 Prometheus 公开格式)公开指标的工作负载的指标。如需了解详情,请参阅 GKE 的可观测性。 |
| AI 运算符支持 | 必须证明至少一个具有自定义资源定义 (CRD) 的复杂 AI 运算符可以安装在平台上,并且可以可靠地运行。如需了解详情,请参阅在 Google Kubernetes Engine 上使用 Kubeflow 和 Ray 构建机器学习平台。 |
后续步骤
- 如需详细了解该计划,请探索 Kubernetes AI 一致性代码库。
- 阅读 GKE 上的 AI/机器学习工作负载简介。
- 详细了解 GKE 上的 AI 模型推理,并试用推理示例。
- 试用在 GKE Standard 模式下使用 GPU 训练模型的示例。