设定切合实际的可靠性目标

Last reviewed 2024-12-30 UTC

Well-Architected Framework 的可靠性支柱中的这一原则可帮助您为工作负载定义技术上可行的可靠性目标。Google Cloud Google Cloud

此原则与可靠性的 范围界定 重点领域 相关。

原则概览

设计系统时,应确保其可靠性足以让用户满意。这似乎有悖常理,但 100% 的可靠性目标通常不是最有效的策略。更高的可靠性可能会导致成本大幅增加,无论是财务投资还是潜在的创新限制。如果用户对当前的服务水平已经很满意,那么进一步提高满意度的努力可能会带来较低的投资回报率。相反,您可以将资源更好地用于其他方面。

您需要确定用户满意的可靠性水平,并确定增量改进的成本开始超过收益的点。确定此 sufficient reliability 水平后,您可以战略性地分配资源,并专注于为用户提供更大价值的功能和 改进。

建议

如需设定切合实际的可靠性目标,请考虑以下小节中的建议。

接受一些失败并确定组件的优先级

以高可用性(例如 99.99% 的正常运行时间)为目标,但不要设定 100% 的正常运行时间目标。承认一些失败是不可避免的。

100% 的正常运行时间与 99.99% 的目标之间的差距是允许的失败。 这种差距通常称为错误预算。错误预算可以帮助您承担风险和进行创新,这对于任何企业保持竞争力都至关重要。

优先考虑系统中最重要的组件的可靠性。 接受不太重要的组件可以具有更高的失败容忍度。

平衡可靠性和成本

如需确定系统的最佳可靠性水平,请进行全面的成本效益分析。

考虑系统要求、失败的后果以及组织对特定应用的风险容忍度等因素。请务必考虑 您的 灾难恢复指标, 例如恢复时间目标 (RTO) 和恢复点目标 (RPO)。 确定在预算和其他限制条件下可接受的可靠性水平。

寻找在不影响基本可靠性功能的情况下提高效率和降低成本的方法。