借助 Error Reporting,您可以自动捕获应用崩溃并将这些崩溃的堆栈轨迹分组到错误组中,以识别、了解和管理应用故障。 Error Reporting 服务错误会自动捕获 Google Cloud 服务中的故障信息,前提是这些服务写入的日志条目中包含故障信息(以错误消息的形式,而不是以堆栈轨迹的形式)。
例如,假设您使用的是 Cloud Run,并且在发出请求时达到容器实例数上限。请求失败会记录在日志条目中,Error Reporting 会自动捕获此错误事件,将其与类似错误事件归为一组,并通知您。如需解决与服务相关的错误事件,请使用可从 Error Reporting 页面访问的服务特定问题排查文档。
查看服务错误组
在 Google Cloud 控制台中,前往 Error Reporting 页面:
您也可以使用搜索栏查找此页面。
当 Error Reporting 确定存在服务故障时,它会将这些错误事件归为一组,并将错误类型设置为 Service error。“Error Reporting”概览会显示错误类型以及有关错误组的其他信息:
对于已记录有解决方案的服务错误事件,Error Reporting 提供了Google Cloud 服务提供的问题排查指南的链接。
服务错误事件示例
下表列出了 Error Reporting 的服务错误捕获的一些(但不是全部)错误事件。
| Google Cloud 服务名称 | 错误类型 |
|---|---|
| Dataflow | 工作器日志限制 内存不足(系统) 缺少自定义子网 步骤有冗长的操作 JRE 崩溃 工作器 JAR 文件配置错误 |
| Cloud Run | 超出内存上限 无可用实例 |
| Google Kubernetes Engine | Pod 运行状况不佳,探测失败 Pod 无法调度 使用退避算法重启失败的容器 未装载的卷 容器映像拉取失败 未能更新端点 未找到密钥/configmap |