管理服务错误事件

借助 Error Reporting,您可以自动捕获应用崩溃并将这些崩溃的堆栈轨迹分组到错误组中,以识别、了解和管理应用故障。 Error Reporting 服务错误会自动捕获 Google Cloud 服务中的故障信息,前提是这些服务写入的日志条目中包含故障信息(以错误消息的形式,而不是以堆栈轨迹的形式)。

例如,假设您使用的是 Cloud Run,并且在发出请求时达到容器实例数上限。请求失败会记录在日志条目中,Error Reporting 会自动捕获此错误事件,将其与类似错误事件归为一组,并通知您。如需解决与服务相关的错误事件,请使用可从 Error Reporting 页面访问的服务特定问题排查文档。

查看服务错误组

在 Google Cloud 控制台中,前往 Error Reporting 页面:

前往 Error Reporting

您也可以使用搜索栏查找此页面。

当 Error Reporting 确定存在服务故障时,它会将这些错误事件归为一组,并将错误类型设置为 Service error。“Error Reporting”概览会显示错误类型以及有关错误组的其他信息:

Error Reporting 概览页面

对于已记录有解决方案的服务错误事件,Error Reporting 提供了Google Cloud 服务提供的问题排查指南的链接。

服务错误事件示例

下表列出了 Error Reporting 的服务错误捕获的一些(但不是全部)错误事件。

Google Cloud 服务名称 错误类型
Dataflow 工作器日志限制
内存不足(系统)
缺少自定义子网
步骤有冗长的操作
JRE 崩溃
工作器 JAR 文件配置错误
Cloud Run 超出内存上限
无可用实例
Google Kubernetes Engine Pod 运行状况不佳,探测失败
Pod 无法调度
使用退避算法重启失败的容器
未装载的卷
容器映像拉取失败
未能更新端点
未找到密钥/configmap