サービスエラー イベントを管理する

Error Reporting を使用すると、アプリケーションのクラッシュを自動的にキャプチャし、これらのクラッシュからのスタック トレースをエラーグループにグループ化することで、アプリケーションの障害を特定して把握し、管理できます。Error Reporting サービスエラーは、 Google Cloud サービスがスタック トレースではなくエラー メッセージとして障害情報を含むログエントリを書き込むときに、 Google Cloud サービスから障害情報を自動的にキャプチャします。

たとえば、Cloud Run を使用しているときに、リクエストの送信時にコンテナ インスタンス数が上限に達したとします。リクエストの失敗はログエントリに記録され、Error Reporting はこのエラーイベントを自動的にキャプチャし、同様のエラーイベントでグループ化して通知します。サービス関連のエラーイベントを解決するには、Error Reporting ページからアクセスできるサービス固有のトラブルシューティング ドキュメントを使用します。

サービス エラーグループを表示する

Google Cloud コンソールで [Error Reporting] ページに移動します。

Error Reporting に移動

このページは、検索バーを使用して見つけることもできます。

Error Reporting は、サービス障害があると判断すると、これらのエラー イベントをグループ化し、エラーのタイプを Service error に設定します。Error Reporting の概要には、エラーのタイプとエラーグループに関するその他の情報が表示されます。

Error Reporting の概要ページ

文書化されたソリューションに関するサービスエラー イベントの場合、Error Reporting はGoogle Cloud サービスに用意されたトラブルシューティング ガイドへのリンクを表示します。

サービス エラー イベントの例

次の表に、Error Reporting のサービスエラーでキャプチャできるエラーイベントの一部を示します(すべてを網羅した表ではありません)。

Google Cloud サービス名 エラーの種類
Dataflow ワーカーログのスロットリング
メモリ不足(システム)
カスタム サブネットの欠落
ステップの実行時間が長い操作
JRE クラッシュ
ワーカー JAR ファイルの構成の誤り
Cloud Run メモリ上限の超過
使用可能なインスタンスがない
Google Kubernetes Engine 異常な状態の Pod、プローブの失敗
Pod のスケジュール設定に失敗しました
失敗したコンテナをバックオフで再起動する
マウントされていないボリューム
コンテナ イメージの pull に失敗しました
エンドポイントを更新できませんでした
Secret / configmap が見つかりませんでした