このページは Cloud Translation API によって翻訳されました。

オブザーバビリティのトラブルシューティング

このドキュメントでは、Google Distributed Cloud（GDC）エアギャップアプライアンスで発生する可能性のあるデプロイの失敗と運用上のインシデントを特定する方法について説明します。また、ロギングコンポーネントとモニタリングコンポーネントに関する一般的な問題を解決するために、システムに表示されるすべてのアラートの説明も記載しています。

オブザーバビリティコンポーネントを特定する

オブザーバビリティプラットフォームは、コンポーネントを組織のインフラストラクチャクラスタの obs-system Namespace にデプロイします。

Infrastructure Operator（IO）の Grafana インスタンスは、組織レベルの指標へのアクセスを提供し、CPU 使用率やストレージ消費量などのインフラストラクチャコンポーネントをモニタリングします。運用ログと監査ログへのアクセスも提供します。また、GDC の運用可能なコンポーネントからアラート、ログ、指標にアクセスできます。

GDC のモニタリングスタックとロギングスタックは、オブザーバビリティプラットフォームの一部としてオープンソースソリューションを使用します。これらのコンポーネントは、Kubernetes Pod、ベアメタルマシン、ネットワークスイッチ、ストレージ、マネージドサービスからログと指標を収集します。

次の表に、オブザーバビリティプラットフォームを統合するすべてのコンポーネントの説明を示します。

コンポーネント	説明
`Prometheus`	Prometheus は、指標の収集と保存、アラートの評価を行う時系列データベースです。Prometheus は、長期保存のために組織インフラストラクチャクラスタの Cortex インスタンスに指標を保存します。Prometheus はラベルを Key-Value ペアとして追加し、Kubernetes ノード、Pod、ベアメタルマシン、ネットワークスイッチ、ストレージアプライアンスから指標を収集します。
`Alertmanager`	Alertmanager は、ログまたは指標がシステムコンポーネントの障害または正常な動作を示していない場合にアラートを送信する、ユーザー定義のマネージャーシステムです。Prometheus アラートのルーティング、サイレンシング、集約を管理します。
`Loki`	Loki は、さまざまなソースからログを保存して集計する時系列データベースです。クエリを効率的に実行するためにログのインデックスを作成します。
`Grafana`	Grafana は、Prometheus が収集した指標を表示し、対応する Loki インスタンスから監査ログと運用ログをクエリするためのユーザーインターフェース（UI）を提供します。UI を使用すると、指標とアラートのダッシュボードを可視化できます。
`Fluent Bit`	Fluent Bit は、さまざまなコンポーネントや場所からログを取得して Loki に送信するプロセッサです。すべてのクラスタのすべてのノードで実行されます。

デプロイの失敗を特定する

デプロイが実行されていて正常な場合、コンポーネントは READY 状態で実行されます。

次の手順に沿って、デプロイの失敗を特定します。

コンポーネントの現在の状態を確認します。
```
kubectl get -n obs-system TYPE/COMPONENT
```
次のように置き換えます。
- TYPE: コンポーネントのタイプ
- COMPONENT: コンポーネント名
次のような出力が表示されます。
```
NAME       READY  AGE
COMPONENT  1/1    23h
```
コンポーネントが正常な場合、出力の READY 列には値として N/N が表示されます。READY 列に値が表示されない場合でも、必ずしも失敗を示すとは限りません。サービスで処理に時間がかかる場合があります。
各コンポーネントの Pod を確認します。
```
kubectl get pods -n obs-system | awk 'NR==1 | /COMPONENT/'
```
COMPONENT は、コンポーネントの名前に置き換えます。

次のような出力が表示されます。
```
NAME       READY  STATUS   RESTARTS  AGE
COMPONENT  1/1    Running  0         23h
```
READY 列の値が N/N であり、STATUS 列の値が Running であり、RESTARTS の数が 2 の値を超えていないことを確認します。

再起動回数が多い場合は、次の症状が考えられます。
- Pod が失敗し、Kubernetes が Pod を再起動します。
- STATUS 列には CrashLoopBackoff 値が表示されます。
失敗ステータスを解決するには、Pod のログを表示します。

Pod が PENDING 状態の場合、この状態は次のいずれかの症状を示します。
- Pod は、必要なコンテナをダウンロードするためのネットワークアクセスを待機しています。
- 構成の問題により、Pod が起動しません。たとえば、Pod に必要な Secret 値がありません。
- Kubernetes クラスタで Pod をスケジュールするリソースが不足しています。これは、クラスタで多くのアプリケーションが実行されている場合に発生します。
PENDING 状態の原因を特定します。
```
kubectl describe -n obs-system pod/POD_NAME
```
POD_NAME は、PENDING 状態を示す Pod の名前に置き換えます。

出力に、Pod の詳細が表示されます。

出力の Events セクションに移動して、Pod の最近のイベントを一覧表示するテーブルと、PENDING 状態の原因に関する概要を表示します。

次の出力は、Grafana StatefulSet オブジェクトの Events セクションのサンプルを示しています。

Events:
  Type    Reason            Age                From                    Message
  ----    ------            ----               ----                    -------
  Normal  SuccessfulCreate  13s (x3 over 12d)  statefulset-controller  create Pod grafana-0 in StatefulSet grafana successful

Pod や他のリソースでイベントが長期間発生していない場合は、次の出力が表示されます。

  Events:         <none>

オブザーバビリティロギングスタックが実行されていることを確認する

次の手順に沿って、ロギングスタックが実行されていることを確認します。

すべての Loki インスタンスまたは Pod に Istio サイドカーが挿入されていることを確認します。anthos-audit-logs-forwarder-SUFFIX と anthos-log-forwarder-SUFFIX という名前のすべての Fluent Bit Pod に Istio サイドカーが挿入されていることを確認します。
すべての Loki インスタンスが組織のインフラストラクチャクラスタでエラーなく実行されていることを確認します。
anthos-audit-logs-forwarder オブジェクトと anthos-log-forwarder オブジェクトの DaemonSet ステータスを確認して、すべてのインスタンスがすべてのノードでエラーなく実行されていることを確認します。
すべてのクラスタで、過去 5 分間の kube-apiserver-SUFFIX コンテナのオペレーションログと Kubernetes API サーバーの監査ログを取得していることを確認します。これを行うには、Grafana インスタンスで次のクエリを実行します。
- 運用ログ: sum (count_over_time({service_name="apiserver"} [5m])) by (cluster, fluentbit_pod)
- 監査ログ: sum (count_over_time({cluster=~".+"} [5m])) by (cluster, node)
組織インフラストラクチャクラスタ内のすべてのコントロールプレーンノードでゼロ以外の値を取得する必要があります。

オブザーバビリティモニタリングスタックが実行されていることを確認する

次の手順に沿って、モニタリングスタックが実行されていることを確認します。

Grafana インスタンスが組織のインフラストラクチャクラスタで実行されていることを確認します。grafana-0 Pod は、次の Namespace でエラーなしで実行されている必要があります。
- obs-system
- infra-obs-obs-system
- platform-obs-obs-system
注: 他の PROJECT_NAMESPACE-obs-system Namespace で Grafana インスタンスが実行されている可能性があります。インスタンスはクラスタによって異なります。

すべてのモニタリングコンポーネントが Istio サービスメッシュ内にあることを確認します。デプロイの失敗を特定するセクションの手順に沿って操作します。次の各 Pod の READY 列に、すべてのコンテナが準備完了と表示されている必要があります。たとえば、値が 3/3 の場合、3 つのコンテナのうち 3 つが準備完了していることを意味します。また、Pod には istio-proxy コンテナが必要です。Pod がこれらの条件を満たしていない場合は、Pod を再起動します。

Pod 名	準備完了のコンテナ数
`cortex-`	`2/2`
`cortex-etcd-0`	`2/2`
`cortex-proxy-server-`	`2/2`
`cortex-tenant-`	`2/2`
`meta-blackbox-exporter-`	`2/2`
`meta-grafana-0`	`3/3`
`meta-grafana-proxy-server-`	`2/2`
`meta-prometheus-0`	`4/4`
`cortex-alertmanager-`	`2/2`
`cortex-compactor-`	`2/2`
`cortex-distributor-`	`2/2`
`cortex-etcd-0`	`2/2`
`cortex-ingester-`	`2/2`
`cortex-querier-`	`2/2`
`cortex-query-frontend-`	`2/2`
`cortex-query-scheduler-`	`2/2`
`cortex-ruler-`	`2/2`
`cortex-store-gateway-`	`2/2`
`cortex-tenant-`	`2/2`
`grafana-proxy-server-`	`2/2`
`meta-blackbox-exporter-`	`2/2`
`meta-grafana-0`	`3/3`
`meta-grafana-proxy-server-*`	`2/2`
`meta-prometheus-0`	`4/4`

Cortex がエラーなく実行されていることを確認します。

オブザーバビリティログを取得する

次の表に、オブザーバビリティプラットフォームがデプロイする各コンポーネントのログを取得するために実行する必要があるコマンドを示します。

コンポーネント	ログ取得コマンド
`grafana`	`kubectl logs -n obs-system statefulset/grafana`
`anthos-prometheus-k8s`	`kubectl logs -n obs-system statefulset/anthos-prometheus-k8s`
`alertmanager`	`kubectl logs -n obs-system statefulset/alertmanager`
`ops-logs-loki-io`	`kubectl logs -n obs-system statefulset/ops-logs-loki-io`
`ops-logs-loki-io-read`	`kubectl logs -n obs-system statefulset/ops-logs-loki-io-read`
`ops-logs-loki-all`	`kubectl logs -n obs-system statefulset/ops-logs-loki-all`
`ops-logs-loki-all-read`	`kubectl logs -n obs-system statefulset/ops-logs-loki-all-read`
`audit-logs-loki-io`	`kubectl logs -n obs-system statefulset/audit-logs-loki-io`
`audit-logs-loki-io-read`	`kubectl logs -n obs-system statefulset/audit-logs-loki-io-read`
`audit-logs-loki-pa`	`kubectl logs -n obs-system statefulset/audit-logs-loki-pa`
`audit-logs-loki-pa-read`	`kubectl logs -n obs-system statefulset/audit-logs-loki-pa-read`
`audit-logs-loki-all`	`kubectl logs -n obs-system statefulset/audit-logs-loki-all`
`audit-logs-loki-all-read`	`kubectl logs -n obs-system statefulset/audit-logs-loki-all-read`
`anthos-log-forwarder`	`kubectl logs -n obs-system daemonset/anthos-log-forwarder`
`anthos-audit-logs-forwarder`	`kubectl logs -n obs-system daemonset/anthos-audit-logs-forwarder`
`oplogs-forwarder`	`kubectl logs -n obs-system daemonset/oplogs-forwarder`
`logmon-operator`	`kubectl logs -n obs-system deployment/logmon-operator`

コンポーネントの以前のインスタンスのログを表示するには、各コマンドの末尾に -p フラグを追加します。-p フラグを追加すると、現在実行中のインスタンスではなく、以前に失敗したインスタンスのログを確認できます。

構成を表示する

オブザーバビリティスタックは、Kubernetes API カスタムリソースを使用してモニタリングとロギングのパイプラインを構成します。

LoggingPipeline カスタムリソースは組織のインフラストラクチャクラスタにデプロイされ、Loki インスタンスを構成します。

次のコマンドは、ロギングパイプラインで実行できる使用可能なアクションを示しています。

ロギングパイプラインのデプロイの現在の構成を表示します。
```
kubectl get loggingpipeline -n obs-system default -o yaml
```
ロギングパイプラインのデプロイの構成を変更します。
```
kubectl edit loggingpipeline -n obs-system default
```

GDC は、logmon-operator というロギングとモニタリングのオペレータを使用して、Prometheus や Fluent Bit などのオブザーバビリティコンポーネントのデプロイを管理します。logmon-operator コンポーネントの API は logmon カスタムリソース定義です。logmon カスタムリソース定義は、デプロイのオブザーバビリティを構成する方法を logmon-operator に指示します。このカスタムリソース定義には、指標を保存するボリュームのプロパティ、Alertmanager のアラートルール、指標を収集する Prometheus 構成、ダッシュボードの Grafana 構成が含まれています。

次のコマンドは、logmon カスタムリソース定義で実行できる使用可能なアクションを示しています。

オブザーバビリティデプロイの現在の構成を表示します。
```
kubectl get logmon -n obs-system logmon-default -o yaml
```
オブザーバビリティデプロイの構成を変更します。
```
kubectl edit logmon -n obs-system logmon-default
```

いずれかのコマンドを実行した出力で、構成をさらに行うために複数の Kubernetes ConfigMap オブジェクトが参照されることがあります。たとえば、別の ConfigMap オブジェクトで Alertmanager ルールを構成し、logmon カスタムリソース定義で名前で参照できます。Alertmanager の構成は、gpc-alertmanager-config という名前の logmon カスタムリソース定義を使用して変更および表示できます。

Alertmanager の構成を表示するには、次のコマンドを実行します。

kubectl get configmap -n obs-system gpc-alertmanager-config -o yaml

一般的な問題

このセクションでは、オブザーバビリティプラットフォームのデプロイ時に発生する可能性のある一般的な問題について説明します。

Grafana にアクセスできない

デフォルトでは、Grafana は Kubernetes クラスタ外部のマシンに公開されません。組織のインフラストラクチャクラスタの外部から Grafana インターフェースに一時的にアクセスするには、Service を localhost にポート転送します。Service をポート転送するには、次のコマンドを実行します。

kubectl port-forward -n gpc-system service/grafana 33000\:3000

ウェブブラウザで http://localhost:33000 に移動して、デプロイの Grafana ダッシュボードを表示します。プロセスを終了するには、Ctrl+C キーを押します。

Grafana の動作が遅い

Grafana の動作が遅い場合は、次のことを示しています。

Prometheus または Loki へのクエリが過剰なデータを返す。
クエリが、1 つのグラフに表示するのに適した量を超えるデータを返す。

Grafana 内の速度低下を解決するには、カスタム Grafana ダッシュボードのクエリを確認します。クエリが 1 つのグラフに表示するのに適した量を超えるデータを返す場合は、ダッシュボードのパフォーマンスを向上させるために、表示するデータ量を減らすことを検討してください。

Grafana ダッシュボードに指標やログが表示されない

Grafana に指標やログが表示されない原因としては、次のことが考えられます。

Grafana データソースが正しく設定されていません。
システムでモニタリングデータソースまたはロギングデータソースへの接続に関する問題が発生している。
システムで指標やログが収集されていません。

ログと指標を表示する手順は次のとおりです。

Grafana ユーザーインターフェースで、 [ダッシュボードの設定] をクリックします。
[データソース] を選択します。
[データソース] ページに、次のソースが表示されていることを確認します。

名前	組織	URL
`Audit Logs`	`All`	`http://audit-logs-loki-io-read.obs-system.svc:3100`
`Operational Logs`	`Root`	`http://ops-logs-loki-io-read.obs-system.svc:3100`
`Operational Logs`	`Org`	`http://ops-logs-loki-all-read.obs-system.svc:3100`
`prometheus`		`http://anthos-prometheus-k8s.obs-system.svc:9090`

これらのデータソースがない場合は、オブザーバビリティスタックが Grafana を正しく構成できなかったことを示します。

データソースを正しく構成してもデータが表示されない場合は、Prometheus または Loki にフィードする指標またはログを収集する Service オブジェクトに問題がある可能性があります。

Prometheus は指標を収集するときに、pull モデルに従って Service オブジェクトの指標を定期的にクエリし、検出された値を保存します。Prometheus が指標収集用の Service オブジェクトを検出するには、次の条件を満たしている必要があります。

Service オブジェクトのすべての Pod に 'monitoring.gke.io/scrape: "true"' のアノテーションが付けられます。

注: サービスがデプロイまたは StatefulSet オブジェクトの場合は、Kubernetes が Pod に伝播するように、サービスにアノテーションを追加します。
Prometheus 指標形式は、HTTP 経由で Pod 指標を公開します。デフォルトでは、Prometheus はエンドポイント http://POD_NAME:80/metrics でこれらの指標を検索します。必要に応じて、アノテーションを使用してポート、エンドポイント、スキーマをオーバーライドできます。

Fluent Bit はログを収集し、Kubernetes クラスタのすべてのノードで実行されるように設計されています。Fluent Bit は、長期保存のためにログを Loki に送信します。

Grafana にログが表示されない場合は、次の回避策をお試しください。

Loki インスタンスのログを調べて、エラーなく実行されていることを確認します。
Loki インスタンスが正常に実行されているのにログが表示されない場合は、Fluent Bit のログを調べて、サービスが想定どおりに動作していることを確認します。ログを pull する方法については、オブザーバビリティログを取得するをご覧ください。

Alertmanager がアラートを開かない

Alertmanager がアラートを開けない場合は、次の手順を行います。

gpc-system 名前空間内の configMap オブジェクトで、ラベル logmon: system_metrics が存在することを確認します。
configMap データセクションに alertmanager.yml という名前のキーが含まれていることを確認します。alertmanager.yml キーの値は、有効な Alertmanager 構成ファイルに含まれるアラートルールである必要があります。
gpc-system Namespace の logmon-default という名前の logmon カスタムリソース定義に configMap オブジェクトへの参照が含まれていることを確認します。logmon-default カスタムリソース定義には、次の例に示すように、configMap オブジェクトの名前を含める必要があります。
```
apiVersion: addons.gke.io/v1
kind: Logmon
spec:
  system_metrics:
    outputs:
      default_prometheus:
        deployment:
          components:
            alertmanager:
              alertmanagerConfigurationConfigmaps:
                - alerts-config
```
例の alerts-config の値は、configMap オブジェクトの名前です。

Alertmanager が構成された通知チャンネルにアラートを送信しない

構成エラーが発生すると、Alertmanager が Grafana インスタンスでアラートを生成しても、Slack などの通知チャンネルとして構成した外部ソフトウェアで通知を受信できないことがあります。

外部ソフトウェアでアラートを受け取る手順は次のとおりです。

Alertmanager 構成ファイルの値が正しくフォーマットされていることを確認します。Alertmanager がアラートをトリガーすると、外部ソフトウェアの Webhook にクエリが送信されます。
外部ソフトウェアに接続する Webhook URL が正しいことを確認します。URL が正しい場合は、Webhook を受け入れるようにソフトウェアが構成されていることを確認します。外部サービス API にアクセスするために API キーを生成する必要があるか、現在の API キーが期限切れで、更新する必要がある可能性があります。
外部サービスが GDC のエアギャップアプライアンスのデプロイの外にある場合は、組織インフラストラクチャクラスタに下り（外向き）ルールが構成されていることを確認します。この構成により、Alertmanager は内部 Kubernetes ネットワークの外部にあるサービスにリクエストを送信できます。下り（外向き）ルールを検証できないと、Alertmanager が外部ソフトウェアを見つけられない可能性があります。

プロジェクトスコープのワークロードの指標が表示されない

次の手順に沿って、回避策を適用し、ワークロードから指標を取得します。

MonitoringTarget カスタムリソースのステータスが Ready であることを確認します。
ワークロードをスクレイピングするには、ワークロードの Pod 仕様で MonitoringTarget に指定されたすべてのターゲット情報を宣言する必要があります。たとえば、指標がポート 8080 で使用可能であることを宣言する場合、ワークロード Pod は Kubernetes に対してポート 8080 が開いていることを宣言する必要があります。それ以外の場合、Prometheus はワークロードを無視します。
Prometheus は複数のシャードを実行します。つまり、すべての Prometheus Pod が Pod をスクレイピングするとは限りません。各 Prometheus Pod の名前でシャード番号を確認できます。たとえば、primary-prometheus-shard0-replica0-0 はシャード 0 の一部です。各 Prometheus シャードからスクレイピングする Pod を確認します。
1. obs-system Namespace の Prometheus の primary-prometheus-shardSHARD_NUMBER-replica0-0 Pod をポート転送して、Prometheus UI にアクセスします。新しいシャードを確認するたびに、Pod 名の SHARD_NUMBER を増分する数値に置き換えます。
2. ウェブブラウザで Prometheus UI に移動し、次の操作を行います。
  1. [ステータス] > [ターゲット] の順にクリックします。
  2. スクレイピングする Pod がリストに含まれていることを確認します。そうでない場合は、次のシャードを確認します。確認するシャードがなくなったら、Prometheus が検出するのに十分な情報があることを再検証します。
3. Prometheus の primary-prometheus-shardSHARD_NUMBER-replica0-0 Pod が obs-system Namespace でエラーをログに記録していることを確認します。
cortex-tenant Pod が obs-system Namespace でエラーをログに記録していることを確認します。

ダッシュボードが作成されなかった

次の手順に沿って、回避策を適用し、ダッシュボードが作成されない理由を確認します。

Dashboard カスタムリソースのステータスを確認して、エラーがないか確認します。カスタムリソースには Ready ステータスが必要です。
正しい Grafana インスタンスを確認していることを確認します。たとえば、my-namespace という名前のプロジェクト Namespace にダッシュボードをデプロイした場合、ダッシュボードは https://GDCH_URL/my-namespace/grafana エンドポイントの Grafana インスタンスに存在する必要があります。
gpc-system Namespace の fleet-admin-controller のログを確認します。ログでダッシュボード名を検索して、ダッシュボードに関連するエラーを探します。エラーが見つかった場合は、configMap オブジェクトの JSON ファイルの形式が正しくないため、修正する必要があります。
PROJECT_NAME-obs-system Namespace の Grafana ログを調べて、エラーがないか確認します。ダッシュボードは Grafana REST API をクエリするため、ダッシュボードを作成するには Grafana が動作している必要があります。

アラートが開かない

次の手順に沿って、回避策を適用し、アラートが開かない理由を特定します。

Cortex と Loki の両方がバケットストレージモードになっていることを確認します。バックエンドがバケットストレージでバックアップされていない場合、ルールは機能しません。
MonitoringRule カスタムリソースと LoggingRule カスタムリソースのステータスが Ready であることを確認します。
次のアラート条件を確認します。
- PromQL 式と LogQL 式: 使用しているすべての関数をアラートルールの作成に関するドキュメントと比較して、ルールが意図したとおりに構成されていることを確認します。式が true 値または false 値を返すことを確認します。
- 期間: カスタムリソースの for フィールドは、条件が true である必要がある期間を定義します。interval フィールドは、条件を評価する頻度を定義します。これらのフィールドの値を相互に照合し、条件が論理的であることを確認します。
Grafana UI の [アラート] ページで、アラートが開いているかどうかを確認します。
Grafana でアラートが開いていることが示されている場合は、通知チャネルを確認し、Alertmanager がアラートを生成するために通知チャネルにアクセスできることを確認します。

想定されるログが使用できない

コンポーネントのオペレーションログが表示されない場合は、次の手順を行います。

コンポーネントが実行され、ログが生成されているかどうかを確認します。
コンポーネントログを組み込み機能として収集する必要があるかどうかを確認します。そうでない場合は、有効な仕様と Ready ステータスで LoggingTarget カスタムリソースがデプロイされていることを確認します。

コンポーネントの監査ログが表示されない場合は、次の手順を行います。

コンポーネントがファイルにログを書き込む場合は、パス /var/log/audit/SERVICE_NAME/NAMESPACE/ACCESS_LEVEL/audit.log のノードのファイルシステムにファイルが実際に存在することを確認します。
同じノードの anthos-audit-logs-forwarder-SUFFIX Pod にエラーがないことを確認します。
コンポーネントが syslog エンドポイントを使用してログを受信する場合は、有効な仕様と Ready ステータスで AuditLoggingTarget カスタムリソースがデプロイされていることを確認します。

事前定義のアラートルールを特定する

このセクションでは、システム障害を通知するためにオブザーバビリティコンポーネントに存在する事前定義のアラートルールについて説明します。

Loki の事前定義アラートルール

次の表に、監査ロギングの失敗に関する Loki のプリインストールされたアラートルールを示します。

監査ロギングの失敗に関する Loki の事前インストール済みアラートルール
名前	型	説明
`FluentBitAuditLoggingWriteFailure`	重大	Fluent Bit が過去 5 分間に監査ログを転送できませんでした。
`LokiAuditLoggingWriteFailure`	重大	Loki が監査ログをバックエンドストレージに書き込めませんでした。

これらのアラートが 1 つ以上表示された場合、システムは 1 つ以上の監査レコードを失っています。

Prometheus の事前定義アラートルール

次の表に、Kubernetes コンポーネントの Prometheus にプリインストールされているアラートルールを示します。

Prometheus にプリインストールされているアラートルール
名前	型	説明
`KubeAPIDown`	重大	Kube API が Prometheus ターゲットの検出から 15 分間、表示されなくなりました。
`KubeClientErrors`	警告	Kubernetes API サーバークライアントのエラー率が 15 分間 0.01 を超えています。
`KubeClientErrors`	重大	Kubernetes API サーバークライアントのエラー率が 15 分間 0.1 を超えています。
`KubePodCrashLooping`	警告	Pod がクラッシュループ状態のまま 15 分以上経過しています。
`KubePodNotReady`	警告	Pod が 15 分以上準備されていない状態です。
`KubePersistentVolumeFillingUp`	重大	要求された `PersistentVolume` オブジェクトのフリーバイトが 0.03 未満です。
`KubePersistentVolumeFillingUp`	警告	要求された `PersistentVolume` オブジェクトのフリーバイトが 0.15 未満です。
`KubePersistentVolumeErrors`	重大	永続ボリュームが 5 分間 `Failed` または `Pending` フェーズにあります。
`KubeNodeNotReady`	警告	ノードが 15 分以上準備できていません。
`KubeNodeCPUUsageHigh`	重大	ノードの CPU 使用率が 80% を超えています。
`KubeNodeMemoryUsageHigh`	重大	ノードのメモリ使用率が 80% を超えている。
`NodeFilesystemSpaceFillingUp`	警告	ノードのファイルシステムの使用率が 60% を超えています。
`NodeFilesystemSpaceFillingUp`	重大	ノードのファイルシステムの使用率が 85% を超えています。
`CertManagerCertExpirySoon`	警告	証明書の有効期限が 21 日後に切れます。
`CertManagerCertNotReady`	重大	10 分後にトラフィックを処理するための証明書が準備ができていません。
`CertManagerHittingRateLimits`	重大	5 分間にわたり、証明書の作成または更新のレート制限に達しました。
`DeploymentNotReady`	重大	組織のインフラストラクチャクラスタの Deployment が 15 分以上準備されていない状態です。
`StatefulSetNotReady`	重大	組織インフラストラクチャクラスタの `StatefulSet` オブジェクトが 15 分以上準備されていない状態です。
`AuditLogsForwarderDown`	重大	`anthos-audit-logs-forwarder` DaemonSet が 15 分以上ダウンしています。
`AuditLogsLokiDown`	重大	`audit-logs-loki` StatefulSet が 15 分以上準備されていない状態です。