Apigee Metrics Pod が CrashLoopBackOff ステータスになっている

現在、Apigee と Apigee ハイブリッドのドキュメントを表示しています。
このトピックに対応する Apigee Edge のドキュメントはありません。

症状

Metrics Pod が起動時に CrashLoopBackoff 状態のままになります。これにより、Pod の再起動時に指標やグラフに定期的なギャップが生じることがあります。また、データの一部が欠落するため、アナリティクスデータとの不整合が生じることもあります。

この問題は、ハイブリッドインストールで大量の指標データが生成された場合に発生することがあります。大量のデータが生成される原因としては、トラフィック負荷が高い（その結果、指標を出力する Metrics Pod など、基盤となるリソースの数が多くなる）場合、または多数の Apigee リソース（プロキシ、ターゲット、環境、ポリシーなど）がモニタリングされている場合などがあります。

エラーメッセージ

kubectl を使用して Pod の状態を表示すると、1 つ以上の Metrics Pod が CrashLoopBackoff 状態になっています。次に例を示します。

kubectl get pods -n NAMESPACE
NAME                                              READY   STATUS            RESTARTS   AGE

apigee-metrics-default-telemetry-proxy-1a2b3c4    0/1     CrashLoopBackoff  10         10m
apigee-metrics-adapter-apigee-telemetry-a2b3c4d   0/1     CrashLoopBackoff  10         10m
...

考えられる原因

原因	説明	トラブルシューティング手順の適用対象
Metrics Pod のメモリが不足している	メモリ不足のため、Telemetry Pod が CrashLoopBackoff 状態になっている	Apigee ハイブリッド

原因 1

Metrics Pod がメモリ不足（OOM）で、エラーの理由が OOMKilled になっています。

診断

Pod のログを調べて、問題が発生していることを確認します。

Pod を一覧表示して、失敗した Metrics Pod の ID を取得します。
```
kubectl get pods -n APIGEE_NAMESPACE -l "app in (app, proxy, collector)"
```

失敗した Pod のログを確認します。

kubectl -n APIGEE_NAMESPACE describe pods POD_NAME

例:

kubectl describe -n apigee pods apigee-metrics-default-telemetry-proxy-1a2b3c4

出力の apigee-prometheus-agg セクションを調べます。次のような出力は、コンテナが繰り返し OOM 状態になっていることを示します。

Containers:
  apigee-prometheus-agg:
    Container ID:  docker://cd893dbb06c2672c41a7d6f3f7d0de4d76742e68cef70d4250bf2d5cdfcdeae6
    Image:         us.gcr.io/apigee-saas-staging-repo/thirdparty/apigee-prom-prometheus/master:v2.9.2
    Image ID:      docker-pullable://us.gcr.io/apigee-saas-staging-repo/thirdparty/apigee-prom-prometheus/master@sha256:05350e0d1a577674442046961abf56b3e883dcd82346962f9e73f00667958f6b
    Port:          19090/TCP
    Host Port:     0/TCP
    Args:
      --config.file=/etc/prometheus/agg/prometheus.yml
      --storage.tsdb.path=/prometheus/agg/
      --storage.tsdb.retention=48h
      --web.enable-admin-api
      --web.listen-address=127.0.0.1:19090
    State:          Waiting
      Reason:       CrashLoopBackOff
    Last State:     Terminated
      Reason:       OOMKilled
      Exit Code:    137
      Started:      Wed, 21 Oct 2020 16:53:42 +0000
      Finished:     Wed, 21 Oct 2020 16:54:28 +0000
    Ready:          False
    Restart Count:  1446
    Limits:
      cpu:     500m
      memory:  512Mi
    Requests:
      cpu:     100m
      memory:  256Mi

注:

level=warn ts=2023-10-05T13:51:05.262Z
caller=queue_manager.go:534 component=queue_manager msg="Unrecoverable error
sending samples to remote storage" err="rpc error: code = InvalidArgument desc
= One or more TimeSeries could not be written

などのログは apigee-stackdriver-exporter コンテナから生成されることがわかっています。指標の公開に影響を与えることは確認されていないため、無視してもかまいません。

解決策

次のコマンドを使用して、現在のコンテナの上限を確認します。
```
kubectl -n APIGEE_NAMESPACE describe pods POD_NAME
```
overrides.yaml ファイルで次のプロパティを使用して、Metrics Pod の上限を構成します。
- metrics.aggregator.resources.limits.memory
- metrics.app.resources.limits.memory
注: これには、テレメトリーコントローラがクラスタで実行されている必要があります（明示的に無効にしない限り、これがデフォルトの動作です）。
```
metrics:
  aggregator: # The apigee-prometheus-agg container in the "proxy" pod
    resources:
      limits:
        memory: 32Gi # default: 3Gi
  app: # The apigee-prometheus-app container in the "app" pod
    resources:
      limits:
        memory: 16Gi # default: 1Gi
```
注: 基盤となるノードで使用可能なメモリを上限に設定できます。
helm upgrade を使用して変更を適用します。
```
helm upgrade telemetry apigee-telemetry/ \
  --install \
  --namespace APIGEE_NAMESPACE \
  -f OVERRIDES_FILE
```
注: apigeectl コマンドをサポートする古いバージョン（v1.11 以前）の場合は、次を使用します。
```
apigeectl apply --telemetry -f overrides.yaml
```
上限を増やしても OOM エラーが発生する場合は、基盤となるノードのサイズを大きくして、メモリ使用量を増やすことができます。

ランタイムプレーンコンポーネントを管理する

収集する必要のある診断情報

次の診断情報を収集して、Apigee サポートにお問い合わせください。

トラブルシューティングのために Prometheus コンテナからデータを収集する

Prometheus コンテナのポート転送を開始します。アプリ Pod とプロキシ Pod の両方でこの手順を繰り返します。次に例を示します。

kubectl port-forward -n apigee apigee-metrics-apigee-telemetry-app-1a2-b3c4-d5ef 8081:9090

クラスタ内で次のスクリプトを使用してデータを収集します。

#!/bin/bash

set -e

# check if jq is installed
jq --version &> /dev/null
if [ $? -ne 0 ]; then
  echo "jq not installed"
  exit 1
fi

# check if curl is installed
curl --version &> /dev/null
if [ $? -ne 0 ] ; then
  echo "curl not installed"
  exit 1
fi

# Simple check for missing arguments
if [[ $# -eq 0 ]] ; then
  echo 'No arguments provided'
  exit 1
fi

# Simple check for missing arguments
if [[ $# -ne 3 ]]; then
  echo 'Illegal number of arguments'
  exit 1
fi

FORWARDED_PORT=${1}
DEST_DIR=${2}
CASE_NUMBER=${3}
DIR_FULL_PATH=${DEST_DIR}/${CASE_NUMBER}_$(date +%Y_%m_%d_%H_%M_%S)
CURRENT_DATE=$(date +%Y-%m-%d)

# we set the default start date for query at 10 days before current date
START_DATE=$(date +%Y-%m-%d -d "10 days ago")

mkdir -pv ${DIR_FULL_PATH}

set -x
curl -s '127.0.0.1:'${FORWARDED_PORT}'/status' | tee ${DIR_FULL_PATH}/prometheus_status_$(hostname)-$(date +%Y.%m.%d_%H.%M.%S).txt
curl -s '127.0.0.1:'${FORWARDED_PORT}'/config' | tee ${DIR_FULL_PATH}/prometheus_config_$(hostname)-$(date +%Y.%m.%d_%H.%M.%S).txt
curl -s '127.0.0.1:'${FORWARDED_PORT}'/api/v1/targets' | tee ${DIR_FULL_PATH}/prometheus_targets_$(hostname)-$(date +%Y.%m.%d_%H.%M.%S).json
curl -s '127.0.0.1:'${FORWARDED_PORT}'/api/v1/status/config' | jq . | tee ${DIR_FULL_PATH}/prometheus_status_config_$(hostname)-$(date +%Y.%m.%d_%H.%M.%S).json
curl -s '127.0.0.1:'${FORWARDED_PORT}'/debug/pprof/heap' --output ${DIR_FULL_PATH}/prometheus_heap_$(date +%Y.%m.%d_%H.%M.%S).hprof
curl -s '127.0.0.1:'${FORWARDED_PORT}'/debug/pprof/heap?debug=1' | tee ${DIR_FULL_PATH}/prometheus_heap_$(date +%Y.%m.%d_%H.%M.%S).txt
curl -s '127.0.0.1:'${FORWARDED_PORT}'/debug/pprof/goroutine' --output ${DIR_FULL_PATH}/prometheus_goroutine_$(date +%Y.%m.%d_%H.%M.%S)
curl -s '127.0.0.1:'${FORWARDED_PORT}'/debug/pprof/goroutine?debug=1' | tee ${DIR_FULL_PATH}/prometheus_goroutine_$(date +%Y.%m.%d_%H.%M.%S).txt
curl -s '127.0.0.1:'${FORWARDED_PORT}'/debug/pprof/profile?seconds=10' --output ${DIR_FULL_PATH}/prometheus_profile_10_seconds_$(date +%Y.%m.%d_%H.%M.%S)
curl -s '127.0.0.1:'${FORWARDED_PORT}'/api/v1/query?query=topk(30%2C%20count%20by%20(__name__)(%7B__name__%3D~%22.%2B%22%7D))&timeout=5s&start='${START_DATE}'T00:00:00.000Z&end='${CURRENT_DATE}'T23:59:59.00Z&step=15s' | jq . | tee ${DIR_FULL_PATH}/prometheus_topk_count_by_name_$(hostname)-$(date +%Y.%m.%d_%H.%M.%S).json
curl -s '127.0.0.1:'${FORWARDED_PORT}'/api/v1/query?query=topk(30%2C%20count%20by%20(__name__%2C%20job)(%7B__name__%3D~%22.%2B%22%7D))&timeout=5s&start='${START_DATE}'T00:00:00.000Z&end='${CURRENT_DATE}'T23:59:59.00Z&step=15s' | jq . | tee ${DIR_FULL_PATH}/prometheus_topk_group_by_job_$(hostname)-$(date +%Y.%m.%d_%H.%M.%S).json
curl -s '127.0.0.1:'${FORWARDED_PORT}'/api/v1/query?query=topk(30%2C%20count%20by%20(job)(%7B__name__%3D~%22.%2B%22%7D))&timeout=5s&start='${START_DATE}'T00:00:00.000Z&end='${CURRENT_DATE}'T23:59:59.00Z&step=15s' | jq . | tee ${DIR_FULL_PATH}/prometheus_topk_job_most_timeseries_$(hostname)-$(date +%Y.%m.%d_%H.%M.%S).json
set +x

ls -latrh ${DIR_FULL_PATH}

tar -cvzf ${DIR_FULL_PATH}.tar.gz ${DIR_FULL_PATH}/

exit 0

引数:

このスクリプトは 3 つの位置引数を取ります。

ポート番号: 転送元のポート（8081 など）に設定します。
ディレクトリ: 出力ファイルのベースディレクトリ。
ケース番号: 生成されたファイル名に使用されるケース番号。

使用例

./prometheus_gather.sh 8081 . 1510679