Pods Apigee Metrics à l'état CrashLoopBackOff

Vous consultez la documentation d'Apigee et d'Apigee hybrid.
Il n'existe pas de documentation Apigee Edge équivalente pour ce sujet.

Problème constaté

Au démarrage, les pods Metrics restent à l'état CrashLoopBackoff. Cela peut entraîner des lacunes périodiques dans vos métriques/graphiques lors du redémarrage des pods. Cela peut également entraîner des écarts avec les données Analytics, car certaines sections de données sont manquantes.

Ce problème peut survenir si votre installation hybride génère une grande quantité de données de métriques. Un grand volume de données peut être généré en raison d'une charge de trafic élevée (entraînant un grand nombre de ressources sous-jacentes, par exemple des MP émettant des métriques) ou d'un grand nombre de ressources Apigee (par exemple, des proxys, des cibles, des environnements, des règles, etc.) surveillées.

Messages d'erreur

Lorsque vous utilisez kubectl pour afficher l'état des pods, vous constatez qu'un ou plusieurs pods de métriques sont à l'état CrashLoopBackoff. Exemple :

kubectl get pods -n NAMESPACE
NAME                                              READY   STATUS            RESTARTS   AGE

apigee-metrics-default-telemetry-proxy-1a2b3c4    0/1     CrashLoopBackoff  10         10m
apigee-metrics-adapter-apigee-telemetry-a2b3c4d   0/1     CrashLoopBackoff  10         10m
...

Causes possibles

Cause	Description	Instructions de dépannage applicables
Les pods de métriques sont à court de mémoire	Les pods de télémétrie sont en état CrashLoopBackoff en raison d'une mémoire insuffisante	Apigee hybrid

Cause 1

Les pods de métriques sont en mémoire insuffisante (OOM) avec le motif d'erreur OOMKilled.

Diagnostic

Vérifiez que le problème se produit en inspectant les journaux des pods :

Répertoriez les pods pour obtenir l'ID du pod Metrics qui échoue :

kubectl get pods -n APIGEE_NAMESPACE -l "app in (app, proxy, collector)"

Vérifiez le journal du pod défaillant :

kubectl -n APIGEE_NAMESPACE describe pods POD_NAME

Par exemple :

kubectl describe -n apigee pods apigee-metrics-default-telemetry-proxy-1a2b3c4

Examinez la section "apigee-prometheus-agg" du résultat. Un résultat semblable à celui-ci indique que le conteneur atteint de manière répétée une condition OOM :

Containers:
  apigee-prometheus-agg:
    Container ID:  docker://cd893dbb06c2672c41a7d6f3f7d0de4d76742e68cef70d4250bf2d5cdfcdeae6
    Image:         us.gcr.io/apigee-saas-staging-repo/thirdparty/apigee-prom-prometheus/master:v2.9.2
    Image ID:      docker-pullable://us.gcr.io/apigee-saas-staging-repo/thirdparty/apigee-prom-prometheus/master@sha256:05350e0d1a577674442046961abf56b3e883dcd82346962f9e73f00667958f6b
    Port:          19090/TCP
    Host Port:     0/TCP
    Args:
      --config.file=/etc/prometheus/agg/prometheus.yml
      --storage.tsdb.path=/prometheus/agg/
      --storage.tsdb.retention=48h
      --web.enable-admin-api
      --web.listen-address=127.0.0.1:19090
    State:          Waiting
      Reason:       CrashLoopBackOff
    Last State:     Terminated
      Reason:       OOMKilled
      Exit Code:    137
      Started:      Wed, 21 Oct 2020 16:53:42 +0000
      Finished:     Wed, 21 Oct 2020 16:54:28 +0000
    Ready:          False
    Restart Count:  1446
    Limits:
      cpu:     500m
      memory:  512Mi
    Requests:
      cpu:     100m
      memory:  256Mi

NOTE : Les journaux tels que

level=warn ts=2023-10-05T13:51:05.262Z
caller=queue_manager.go:534 component=queue_manager msg="Unrecoverable error
sending samples to remote storage" err="rpc error: code = InvalidArgument desc
= One or more TimeSeries could not be written

sont connus pour être produits par le conteneur apigee-stackdriver-exporter et peuvent être ignorés, car ils n'ont pas été observés comme ayant un impact sur la publication des métriques.

Solution

Vérifiez les limites de conteneur actuelles à l'aide de la commande suivante :
```
kubectl -n APIGEE_NAMESPACE describe pods POD_NAME
```
Configurez les limites de pods de métriques dans votre fichier overrides.yaml avec les propriétés suivantes :
- metrics.aggregator.resources.limits.memory
- metrics.app.resources.limits.memory
Remarque : Cela nécessite que le contrôleur de télémétrie s'exécute dans le cluster (il s'agit du comportement par défaut, sauf s'il est explicitement désactivé).
```
metrics:
  aggregator: # The apigee-prometheus-agg container in the "proxy" pod
    resources:
      limits:
        memory: 32Gi # default: 3Gi
  app: # The apigee-prometheus-app container in the "app" pod
    resources:
      limits:
        memory: 16Gi # default: 1Gi
```
Remarque : La limite peut être définie sur la quantité de mémoire disponible sur les nœuds sous-jacents.
Appliquez les modifications avec helm upgrade :
```
helm upgrade telemetry apigee-telemetry/ \
  --install \
  --namespace APIGEE_NAMESPACE \
  -f OVERRIDES_FILE
```
Remarque : Pour les anciennes versions compatibles avec la commande apigeectl (version 1.11 et antérieures), utilisez :
```
apigeectl apply --telemetry -f overrides.yaml
```
Si l'erreur OOM persiste après l'augmentation de la limite, vous pouvez augmenter la taille des nœuds sous-jacents pour permettre une plus grande utilisation de la mémoire.

Gérer les composants du plan d'exécution

Vous devez collecter des informations de diagnostic

Rassemblez les informations de diagnostic suivantes, puis contactez l'assistance Apigee :

Recueillir des données à partir du conteneur Prometheus pour résoudre les problèmes

Démarrez le transfert de port pour le conteneur Prometheus. Répétez l'opération pour les pods d'application et de proxy. Exemple :

kubectl port-forward -n apigee apigee-metrics-apigee-telemetry-app-1a2-b3c4-d5ef 8081:9090

Utilisez le script ci-dessous dans votre cluster pour collecter des données :

#!/bin/bash

set -e

# check if jq is installed
jq --version &> /dev/null
if [ $? -ne 0 ]; then
  echo "jq not installed"
  exit 1
fi

# check if curl is installed
curl --version &> /dev/null
if [ $? -ne 0 ] ; then
  echo "curl not installed"
  exit 1
fi

# Simple check for missing arguments
if [[ $# -eq 0 ]] ; then
  echo 'No arguments provided'
  exit 1
fi

# Simple check for missing arguments
if [[ $# -ne 3 ]]; then
  echo 'Illegal number of arguments'
  exit 1
fi

FORWARDED_PORT=${1}
DEST_DIR=${2}
CASE_NUMBER=${3}
DIR_FULL_PATH=${DEST_DIR}/${CASE_NUMBER}_$(date +%Y_%m_%d_%H_%M_%S)
CURRENT_DATE=$(date +%Y-%m-%d)

# we set the default start date for query at 10 days before current date
START_DATE=$(date +%Y-%m-%d -d "10 days ago")

mkdir -pv ${DIR_FULL_PATH}

set -x
curl -s '127.0.0.1:'${FORWARDED_PORT}'/status' | tee ${DIR_FULL_PATH}/prometheus_status_$(hostname)-$(date +%Y.%m.%d_%H.%M.%S).txt
curl -s '127.0.0.1:'${FORWARDED_PORT}'/config' | tee ${DIR_FULL_PATH}/prometheus_config_$(hostname)-$(date +%Y.%m.%d_%H.%M.%S).txt
curl -s '127.0.0.1:'${FORWARDED_PORT}'/api/v1/targets' | tee ${DIR_FULL_PATH}/prometheus_targets_$(hostname)-$(date +%Y.%m.%d_%H.%M.%S).json
curl -s '127.0.0.1:'${FORWARDED_PORT}'/api/v1/status/config' | jq . | tee ${DIR_FULL_PATH}/prometheus_status_config_$(hostname)-$(date +%Y.%m.%d_%H.%M.%S).json
curl -s '127.0.0.1:'${FORWARDED_PORT}'/debug/pprof/heap' --output ${DIR_FULL_PATH}/prometheus_heap_$(date +%Y.%m.%d_%H.%M.%S).hprof
curl -s '127.0.0.1:'${FORWARDED_PORT}'/debug/pprof/heap?debug=1' | tee ${DIR_FULL_PATH}/prometheus_heap_$(date +%Y.%m.%d_%H.%M.%S).txt
curl -s '127.0.0.1:'${FORWARDED_PORT}'/debug/pprof/goroutine' --output ${DIR_FULL_PATH}/prometheus_goroutine_$(date +%Y.%m.%d_%H.%M.%S)
curl -s '127.0.0.1:'${FORWARDED_PORT}'/debug/pprof/goroutine?debug=1' | tee ${DIR_FULL_PATH}/prometheus_goroutine_$(date +%Y.%m.%d_%H.%M.%S).txt
curl -s '127.0.0.1:'${FORWARDED_PORT}'/debug/pprof/profile?seconds=10' --output ${DIR_FULL_PATH}/prometheus_profile_10_seconds_$(date +%Y.%m.%d_%H.%M.%S)
curl -s '127.0.0.1:'${FORWARDED_PORT}'/api/v1/query?query=topk(30%2C%20count%20by%20(__name__)(%7B__name__%3D~%22.%2B%22%7D))&timeout=5s&start='${START_DATE}'T00:00:00.000Z&end='${CURRENT_DATE}'T23:59:59.00Z&step=15s' | jq . | tee ${DIR_FULL_PATH}/prometheus_topk_count_by_name_$(hostname)-$(date +%Y.%m.%d_%H.%M.%S).json
curl -s '127.0.0.1:'${FORWARDED_PORT}'/api/v1/query?query=topk(30%2C%20count%20by%20(__name__%2C%20job)(%7B__name__%3D~%22.%2B%22%7D))&timeout=5s&start='${START_DATE}'T00:00:00.000Z&end='${CURRENT_DATE}'T23:59:59.00Z&step=15s' | jq . | tee ${DIR_FULL_PATH}/prometheus_topk_group_by_job_$(hostname)-$(date +%Y.%m.%d_%H.%M.%S).json
curl -s '127.0.0.1:'${FORWARDED_PORT}'/api/v1/query?query=topk(30%2C%20count%20by%20(job)(%7B__name__%3D~%22.%2B%22%7D))&timeout=5s&start='${START_DATE}'T00:00:00.000Z&end='${CURRENT_DATE}'T23:59:59.00Z&step=15s' | jq . | tee ${DIR_FULL_PATH}/prometheus_topk_job_most_timeseries_$(hostname)-$(date +%Y.%m.%d_%H.%M.%S).json
set +x

ls -latrh ${DIR_FULL_PATH}

tar -cvzf ${DIR_FULL_PATH}.tar.gz ${DIR_FULL_PATH}/

exit 0

Arguments :

Le script utilise trois arguments positionnels.

Numéro de port : définissez le port à partir duquel vous avez effectué le transfert (par exemple, 8081).
Répertoire : répertoire de base pour les fichiers de sortie.
Numéro de demande : numéro de demande utilisé pour le nom de fichier généré.

Exemple d'utilisation

./prometheus_gather.sh 8081 . 1510679