提醒可帮助您随时了解气隙部署的健康状况和性能。它们会在满足特定条件时及时提供通知,让您能够执行以下操作:
- 主动解决问题:在问题影响用户或业务运营之前,检测并解决问题。
- 减少停机时间:快速采取纠正措施,尽可能减少服务中断。
- 保持服务等级:确保应用达到性能和可用性目标。
- 获取运营数据分析:识别环境中的趋势和模式,以优化资源利用率和性能。
本页面简要介绍了如何在 Google Distributed Cloud (GDC) 气隙环境中创建和管理提醒。本文介绍了如何使用监控数据主动识别和响应应用及基础架构中的重大事件。
提醒政策类型
基于指标的提醒政策会跟踪监控数据,并在资源满足预先设定的条件时通知特定人员。例如,监控虚拟机 CPU 利用率的提醒政策可能会在某个事件激活该政策时发送通知。或者,监控正常运行时间检查的政策可能会通知轮班团队和开发团队。
另一方面,如需监控一段时间内的日志中的周期性事件,请使用基于日志的指标来创建提醒政策。基于日志的指标通过日志记录数据生成数值数据。如果要执行以下任一操作,则可使用基于日志的指标:
- 计算日志中消息的出现次数(例如警告或错误)。当事件数量超过阈值时,您将收到通知。
- 观察数据中的趋势,例如日志中的延迟时间值。如果值发生不可接受的变化,则接收通知。
- 创建图表以显示从日志中提取的数字数据。
在 GDC 中,提醒可以针对严重错误生成网页和工单。页面需要操作人员立即处理,而工单的紧急程度较低。
关键组件
GDC 提醒服务使用以下组件:
- Prometheus:一种广泛用于收集和存储指标的开源监控系统。它提供了一种强大的查询语言 (PromQL),用于定义提醒规则。
- 监控平台:一种托管式监控服务,可从各种来源(包括 Prometheus)收集指标。它提供 Grafana 信息中心、自定义指标和提醒等高级功能。
- Alertmanager:负责接收、处理和路由提醒的组件。它支持对提醒进行分组、静音和禁止,以减少干扰并提高效率。
提醒工作流
GDC 提供了一个与各种监控工具和服务集成的提醒框架。典型的工作流程包括以下阶段:
- 数据收集:使用 Prometheus 和 Fluent Bit 等工具从应用、基础架构和 Kubernetes 中收集指标和日志。
- 监控:在 Grafana 信息中心内存储和直观呈现收集的数据。
- 提醒规则:根据特定条件定义提醒规则,例如 CPU 使用率超过阈值或应用错误超过一定比率。
- Alertmanager:Alertmanager 接收由已定义的规则触发的提醒,并处理通知路由和静音。
- 通知:通过各种渠道(例如电子邮件、消息或网络钩子)接收提醒。
最佳做法
设置提醒时,请考虑以下最佳实践:
- 定义清晰且富有实用价值的提醒:确保提醒提供有关问题的具体信息,并建议采取适当的措施。
- 设置适当的严重程度:根据提醒的影响和紧急程度对提醒进行分类,以便确定响应工作的优先顺序。
- 避免提醒疲劳:微调提醒规则,以尽可能减少误报和不必要的通知。
- 定期测试提醒:验证提醒是否正确触发,以及通知是否按预期递送。
- 记录提醒策略:记录提醒规则、通知渠道和上报程序。