GKE AI 一致性简介

标准

本文档介绍了 Kubernetes AI 一致性计划是什么、该计划对于在 Google Kubernetes Engine (GKE) 上运行的 AI/机器学习工作负载为何重要，以及如何设置符合要求的 GKE 集群。

为何 AI 一致性对 GKE 集群至关重要

Kubernetes AI 一致性计划为 Kubernetes 集群定义了一项标准，以确保它们能够可靠高效地运行 AI 和机器学习工作负载。为 AI/机器学习设置 Kubernetes 集群可能很复杂。这通常需要了解特定的驱动程序安装、API 版本以及针对意外 bug 的潜在解决方法。

GKE 等符合标准的平台旨在为您处理这些底层复杂性，从而提供从设置到部署的途径。通过基于符合标准的 GKE 版本进行构建，您可以放心地确保您的环境针对以下条件进行了优化：

可伸缩性：根据需求高效地扩缩 AI/机器学习工作负载。
性能：充分利用硬件（包括 GPU 和 TPU）。
可移植性：只需进行极少的更改，即可在任何符合标准的 Kubernetes 集群上运行 AI/机器学习应用。
互操作性：可与 AI/ML 生态系统中的其他工具和框架集成。

如何创建符合 AI 要求的 GKE 集群

如需创建符合 AI 要求的 GKE 集群，您需要执行以下操作：

查看 ai-conformance GitHub 代码库，了解符合要求的版本列表。
创建以标准模式运行且版本符合要求的 GKE 集群，例如 1.34.0-gke.1662000 或更高版本。
在集群上启用 Gateway API。

您的集群现在符合 Kubernetes AI 一致性的强制性要求。

是什么让 GKE 成为符合 Kubernetes AI 标准的平台

GKE 会管理 AI 合规性的底层要求，因此您无需担心。下表重点介绍了这些针对 AI/ML 工作负载的关键功能。其中一些功能默认处于启用状态，但其他功能（例如用于组调度的 Kueue）是可选的附加功能，您可以安装这些功能来增强 AI/机器学习工作负载。

Kubernetes AI 一致性计划旨在随着 AI/ML 生态系统的发展而不断完善。这些要求会随着每个 Kubernetes 次要版本的发布而更新，具体取决于生态系统的状态。如需了解特定次版本的完整要求，请在 ai-conformance GitHub 代码库中查看 docs/AIConformance-MINOR_VERSION.yaml 文件，其中 MINOR_VERSION 是您的特定版本，例如 v1.34。

要求
动态资源分配 (DRA)	除了数量之外，还支持更灵活、更精细的资源请求。如需了解详情，请参阅动态资源分配简介。
Kubernetes Gateway API	为推理服务提供高级流量管理，从而实现基于权重的流量拆分和基于标头的路由等功能。如需了解详情，请参阅 GKE Gateway API 简介。
Gang 调度	确保分布式 AI 工作负载的完全调度。GKE 允许安装并成功运行至少一种 gang 调度解决方案。如需查看示例，请参阅使用 Kueue 部署批处理系统。
适用于加速器的集群自动扩缩器	根据请求特定加速器的待处理 Pod，纵向扩缩包含这些加速器的节点组。如需了解详情，请参阅： GKE 集群自动扩缩简介。自定义 ComputeClass 简介。
适用于加速器的 Pod 横向自动扩缩器 (HPA)	可正确处理利用加速器的 Pod，包括能够根据与 AI/机器学习工作负载相关的自定义指标扩缩这些 Pod。如需了解详情，请参阅：为 GPU 上的 LLM 工作负载配置自动扩缩。为 TPU 上的 LLM 工作负载配置自动扩缩。
加速器性能指标	通过使用标准化的机器可读格式指标端点，公开精细的性能指标。如需了解详情，请参阅：监控 GPU 节点工作负载性能。 TPU 工作负载的可观测性和指标。
标准化监控	提供一个监控系统，能够发现并收集以标准格式（例如 Prometheus 公开格式）公开指标的工作负载的指标。如需了解详情，请参阅 GKE 的可观测性。
AI 运算符支持	必须证明至少一个具有自定义资源定义 (CRD) 的复杂 AI 运算符可以安装在平台上，并且可以可靠地运行。如需了解详情，请参阅在 Google Kubernetes Engine 上使用 Kubeflow 和 Ray 构建机器学习平台。

GKE AI 一致性简介 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

为何 AI 一致性对 GKE 集群至关重要

如何创建符合 AI 要求的 GKE 集群

是什么让 GKE 成为符合 Kubernetes AI 标准的平台

后续步骤

GKE AI 一致性简介