管理服務錯誤事件

Error Reporting 會自動擷取應用程式當機情形,並將這些當機事件的堆疊追蹤記錄分組,方便您找出、瞭解及管理應用程式故障。當 Google Cloud 服務寫入記錄項目時,如果失敗資訊是以錯誤訊息的形式 (而非堆疊追蹤) 納入,Error Reporting 服務錯誤就會自動擷取失敗資訊。

舉例來說,假設您使用 Cloud Run,並在提出要求時達到容器執行個體上限,系統會在記錄項目中記錄要求失敗情形,Error Reporting 會自動擷取這個錯誤事件,並將其與類似的錯誤事件分組,然後通知您。如要解決服務相關的錯誤事件,請使用可從「錯誤報告」頁面存取的服務專屬疑難排解文件。

查看服務錯誤群組

前往 Google Cloud 控制台的「Error Reporting」頁面:

前往 Error Reporting

您也可以透過搜尋列找到這個頁面。

Error Reporting 判斷發生服務故障時,會將這些錯誤事件歸為同一組,並將錯誤類型設為 Service error。Error Reporting 總覽會顯示錯誤類型,以及錯誤群組的其他資訊:

Error Reporting 總覽頁面

如果服務錯誤事件有記錄在案的解決方案,Error Reporting 會提供Google Cloud 服務提供的疑難排解指南連結。

服務錯誤事件範例

下表列出部分 (而非全部) 錯誤事件,這些事件會由 Error Reporting 的服務錯誤擷取。

Google Cloud 服務名稱 錯誤類型
Dataflow 工作站記錄節流
記憶體不足 (系統)
缺少自訂子網路
步驟中的作業時間過長
JRE 損毀
工作站 JAR 檔案設定錯誤
Cloud Run 已超出記憶體上限
沒有可用的執行個體
Google Kubernetes Engine Pod 健康狀態不良,探測失敗
Pod 無法排程
無法重新啟動容器,並出現退避情形
卸載磁碟區
無法提取容器映像檔
無法更新端點
找不到密鑰/configmap