持续优化

Google Cloud Well-Architected Framework 成本优化核心中的这一原则提供了相关建议,可帮助您根据不断变化和发展的业务目标优化云部署的成本。

随着业务的增长和发展,云工作负载需要适应资源需求和使用模式的变化。为了从云支出中获得最大价值,您必须在继续支持业务目标的同时保持成本效益。这需要采取主动式自适应方法,重点在于持续改进和优化。

原则概览

为了持续优化费用,您必须主动监控和分析云环境,并做出适当调整以满足当前要求。将监控工作重点放在直接影响最终用户体验、符合业务目标并能为持续改进提供数据洞见的关键绩效指标 (KPI) 上。借助这种方法,您可以发现并解决效率低下的问题,适应不断变化的需求,并持续调整云支出,使其与战略性业务目标保持一致。为了在全面可观测性和成本效益之间取得平衡,请了解监控资源使用情况的成本和效益,并使用适当的流程改进和优化策略。

建议

为了有效地监控 Google Cloud 环境并持续优化费用,请考虑以下建议。

专注于与业务相关的指标

有效的监控始于确定对您的业务和客户最重要的指标。这些指标包括:

  • 用户体验指标:延迟时间、错误率、吞吐量和客户满意度指标有助于了解最终用户在使用应用时的体验。
  • 业务成果指标:收入、客户增长和互动度可以与资源用量相关联,以发现成本优化机会。
  • DevOps 研究与评估 (DORA) 指标:部署频率、更改前的准备时间、更改失败率和恢复时间等指标可让您深入了解软件交付流程的效率和可靠性。通过改进这些指标,您可以提高工作效率、减少停机时间并优化成本。
  • 站点可靠性工程 (SRE) 指标:错误预算可帮助团队量化和管理可接受的服务中断程度。通过为可靠性设定明确的预期,错误预算可让团队更自信地进行创新和部署变更,因为他们知道自己的安全边际。这种主动式方法有助于在创新与稳定性之间取得平衡,从而避免因重大中断或长时间停机而产生过高的运营成本。

使用可观测性来优化资源

以下建议可帮助您利用可观测性来识别云部署中的资源瓶颈和未充分利用的资源:

  • 监控资源利用率:使用资源利用率指标来识别Google Cloud 利用率不足的资源。例如,使用 CPU 和内存利用率等指标来识别空闲的虚拟机资源。对于 Google Kubernetes Engine (GKE),您可以查看详细的费用明细与费用相关的优化指标。 对于 Google Cloud VMware Engine,请查看资源利用率,以优化 CUD、存储空间消耗和 ESXi 容量调整。
  • 使用云建议Active Assist 提供了一系列智能工具,可帮助您优化云运维。这些工具可提供切实可行的建议,帮助您降低费用、提高性能、增强安全性,甚至做出以可持续发展为重点的决策。例如,虚拟机合理调整规模数据分析有助于优化资源分配并避免不必要的支出。
  • 将资源利用率与性能相关联:分析资源利用率与应用性能之间的关系,以确定是否可以在不影响用户体验的情况下降级到更便宜的资源。

在排查需求与成本之间取得平衡

详细的可观测性数据有助于诊断和排查问题。 不过,存储过多的可观测性数据或将不必要的数据导出到外部监控工具可能会导致不必要的费用。为了高效排查问题,请考虑以下建议:

  • 收集足够的数据以进行问题排查:确保监控解决方案捕获足够的数据,以便在出现问题时高效诊断和解决问题。这些数据可能包括各种粒度的日志、轨迹和指标。
  • 使用抽样和汇总:通过使用抽样和汇总技术,在需要详细数据与考虑成本之间取得平衡。这种方法可让您收集具有代表性的数据,而不会产生过高的存储费用。
  • 了解监控工具和服务的价格模式:评估不同的监控解决方案,并选择符合项目特定需求、预算和使用模式的选项。在做出选择时,请考虑数据量、保留要求和所需功能等因素。
  • 定期检查监控配置:移除不必要的指标或日志,避免收集过多的数据。

根据角色定制数据收集并设置特定于角色的保留政策

考虑不同角色的具体数据需求。例如,开发者可能主要需要访问轨迹和应用级日志,而 IT 管理员可能更关注系统日志和基础设施指标。通过定制数据收集,您可以减少不必要的存储费用,并避免向用户提供无关信息,以免他们感到困扰。

此外,您还可以根据每个角色的需求和任何法规要求来定义保留政策。例如,开发者可能需要在较短的时间内访问详细日志,而财务分析师可能需要更长期的历史数据。

考虑监管和合规性要求

在某些行业,法规要求必须保留数据。为避免法律和财务风险,您需要确保自己的监控和数据保留实践有助于您遵守相关法规。与此同时,您还需要保持成本效益。请考虑以下建议:

  • 确定您所在行业或地区的具体数据保留要求,并确保您的监控策略符合这些要求。
  • 实施适当的数据归档和检索机制,以满足审核和合规性需求,同时最大限度地降低存储费用。

实现智能提醒

提醒有助于及时检测和解决问题。不过,在让您及时了解情况和让您被通知淹没之间,需要找到一个平衡点。通过设计智能提醒系统,您可以优先处理对业务影响较大的严重问题。请考虑以下建议:

  • 优先处理影响客户的问题:针对直接影响客户体验的问题(例如网站中断、响应时间过长或交易失败)设计可快速触发的提醒。
  • 针对临时问题进行调整:使用适当的阈值和延迟机制,避免因临时问题或不影响客户的自愈系统问题而发出不必要的提醒。
  • 自定义提醒严重程度:区分严重和非严重提醒,确保最紧急的问题能立即得到处理。
  • 明智地使用通知渠道:根据提醒的严重程度和紧急程度,为提醒通知(邮件、短信或寻呼)选择合适的渠道。