Well-Architected Framework 可靠性核心中的这一原则提供了相关建议,可帮助您规划、构建和管理资源冗余,从而避免故障。Google Cloud
这一原则与可靠性的 范围界定 重点领域 相关。
原则概览
在确定所需可靠性级别后,您必须设计系统以避免出现任何单点故障。系统中的每个关键组件都必须跨多台 机器、多个可用区和多个 区域进行复制。 例如,关键数据库不能仅位于一个区域中,元数据服务器也不能仅部署在一个可用区或区域中。在这些示例中,如果唯一的可用区或区域发生服务中断,系统就会发生全局服务中断。
建议
如需构建冗余系统,请考虑以下小节中的建议。
识别故障域并复制服务
绘制系统的 故障域( 从单个虚拟机到区域),并针对故障 域设计冗余。
为确保高可用性,请跨多个可用区和区域分发和复制服务及应用。配置系统以进行自动故障切换,确保在可用区或区域发生服务中断时,服务和应用仍可继续使用。
如需查看多可用区和多区域架构的示例,请参阅 为您的工作负载设计可靠的基础架构 Google Cloud。
及时检测和解决问题
持续跟踪故障域的状态,以便及时检测和解决问题。
您可以使用 Google Cloud Service Health 信息中心监控所有区域中 服务的当前状态。 Google Cloud 您还可以使用 Personalized Service Health查看与项目相关的突发事件。 您可以使用负载平衡器检测资源健康状况,并自动将流量路由到健康状况良好的后端。如需了解详情,请参阅 健康检查概览。
测试故障切换场景
就像消防演习一样,定期模拟故障,以验证复制和故障切换策略的有效性。
如需了解详情,请参阅 模拟区域级 MIG 的可用区服务中断情况 和 在 GKE 区域级集群中模拟可用区故障。