GKE 最佳实践

本文档汇总概述了在 Google Kubernetes Engine (GKE) 上设计、构建和运行应用的最佳实践。遵循这些建议有助于您在费用、性能、安全性和可靠性方面进行优化。每个条目都链接到有关特定主题的更详细文档。

选择您的 GKE 类别:

或者,搜索最佳实践:

类别 最佳做法 摘要
AI 和机器学习工作负载 优化 AI/机器学习工作负载效率 最大限度地提高 GKE 上 AI/机器学习任务的资源效率。
AI 和机器学习工作负载 推理工作负载 在 GKE 上运行机器学习推理工作负载。
AI 和机器学习工作负载 使用 GPU 自动扩缩 LLM 推理 使用 GKE 中的 GPU 自动扩缩大语言模型 (LLM) 推理。
AI 和机器学习工作负载 使用 TPU 自动扩缩 LLM 推理 使用 GKE 上的 TPU 自动扩缩大语言模型 (LLM) 推理。
AI 和机器学习工作负载 使用 GPU 优化 LLM 推理 使用 GKE 中的 GPU 优化 LLM 推理。
AI 和机器学习工作负载 批处理平台 在 GKE 上构建和运行批处理平台。
费用优化 运行经济实惠的 Kubernetes 应用 降低 GKE 上 Kubernetes 应用的运营成本。
数据库 数据库选项 为 GKE 应用选择和管理数据库解决方案。
网络 网络 为 GKE 配置和管理网络连接。
运维 升级集群 了解如何顺利可靠地升级 GKE 集群。
运维 适用于 GKE 的 CI/CD 为 GKE 应用实现持续集成和交付流水线。
可靠性和可伸缩性 可伸缩性 了解在 GKE 上伸缩应用的相关原则和技巧。
可靠性和可伸缩性 规划可伸缩性 了解用于设计可伸缩 GKE 环境的策略。
可靠性和可伸缩性 规划大型 GKE 集群 了解如何设计和管理大规模 GKE 集群。
可靠性和可伸缩性 运行 HPC 工作负载的最佳实践 用于优化在 GKE 上运行高性能计算 (HPC) 工作负载的最佳实践。
可靠性和可伸缩性 规划大型工作负载 部署和管理资源密集型应用。
安全 强化 GKE 集群的安全性 增强 GKE 集群的 GKE 安全状况。
安全 规划 RBAC 政策 定义基于角色的访问权限控制,以管理权限。
安全 企业多租户 在一个 GKE 集群上安全地运行多个租户。