利用可观测性检测潜在故障

Last reviewed 2024-12-30 UTC

Well-Architected Framework 的可靠性核心中的 Google Cloud 这一原则 提供了相关建议,可帮助您主动确定可能发生错误和 故障的区域。

此原则与可靠性的 观测 重点领域 相关。

原则概览

如需在 Google Cloud中维护和提高工作负载的可靠性,您需要使用 指标、日志和跟踪记录来实现有效的可观测性。

  • 指标是指您希望以特定时间间隔跟踪的应用活动的数值衡量结果。例如,您可能需要跟踪请求速率和错误率等技术指标,这些指标可用作服务等级指标 (SLI)。您可能还需要跟踪应用特有的业务指标,例如已下达的订单和已收到的付款。
  • 日志是应用或系统内发生的离散事件的带时间戳记录。事件可能是故障、错误或状态变化。日志可能包含指标,您也可以将日志用于 SLI。
  • 跟踪记录代表单个用户或事务在多个单独的应用或应用组件中的历程。例如,这些组件可以是微服务。跟踪记录可帮助您跟踪历程中使用了哪些组件、瓶颈存在于何处以及历程花费了多长时间。

指标、日志和跟踪记录可帮助您持续监控系统。 全面的监控有助于您找出错误发生的位置和原因。您还可以在错误发生之前检测到潜在的故障。

建议

如需高效检测潜在故障,请考虑以下子部分中的建议。

获取全面的洞见

如需跟踪响应时间和错误率等关键指标,请使用 Cloud MonitoringCloud Logging。 这些工具还有助于确保指标始终满足工作负载的需求。

如需做出数据驱动型决策,请分析默认服务指标,以了解组件依赖项及其对整体工作负载性能的影响。

如需自定义监控策略,请使用 Google Cloud SDK 创建和发布自己的指标。

执行主动问题排查

在 Google Cloud中实现强大的错误处理机制,并为工作负载的所有组件 启用日志记录。激活 Cloud Storage 访问日志VPC 流日志等日志。

配置日志记录时,请考虑相关 费用。 如需控制日志记录费用,您可以在日志接收器上配置 排除过滤器 ,以免存储某些日志。

优化资源利用率

监控 CPU 消耗量、网络 I/O 指标和磁盘 I/O 指标,以检测 GKE、Compute Engine 和 Managed Service for Apache Spark 等服务中资源配置不足和资源配置过多的情况。如需查看受支持的服务的完整列表,请参阅 Cloud Monitoring 概览

优先处理提醒

对于提醒,请重点关注关键指标,设置适当的阈值以最大限度地减少提醒疲劳,并确保及时响应重大问题。这种有针对性的方法可让您主动维护工作负载可靠性。如需了解详情,请参阅 提醒概览