Diagnostiquer les problèmes de cluster

La fonctionnalité de vérification de l'état d'état surveille régulièrement l'état du plan de contrôle de cluster et de plusieurs composants critiques, et vous aide à détecter et à diagnostiquer d'éventuels problèmes avec vos clusters.

Si vous avez besoin d'aide supplémentaire, contactez l'assistance Cloud Customer Care.

Problèmes détectés

Le vérificateur d'état du cluster détecte les problèmes suivants dans un cluster et vous en avertit :

  • État de kube-scheduler sur les nœuds du plan de contrôle : si kube-scheduler n'est pas opérationnel, cela signifie que le cluster rencontre des difficultés pour attribuer des pods aux nœuds. Pour en savoir plus, vous pouvez examiner le journal de pod kube-scheduler.

  • État de kube-controller-manager sur les nœuds du plan de contrôle : kube-controller-manager surveille divers contrôleurs, tels que les contrôleurs ReplicaSet, Deployment et Namespace, entre autres. Si le kube-controller-manager est jugé non opérationnel, cela suggère qu'un ou plusieurs des contrôleurs qu'il gère pourraient ne pas fonctionner correctement. Pour déterminer précisément le problème rencontré, vous pouvez consulter le journal du pod kube-controller-manager, qui peut fournir plus d'informations sur le ou les contrôleurs défectueux.

  • Capacité du volume racine : le vérificateur d'état vérifie que la capacité est suffisante sur le volume racine de chaque nœud du plan de contrôle. Si la capacité disponible passe sous 512 Mo, l'outil de vérification d'état vous avertit du risque potentiel de manquer d'espace disque.

Afficher les événements de vérification de l'état

Pour afficher les alertes du vérificateur d'état pour un cluster spécifique, exécutez la commande suivante :

gcloud container azure clusters describe CLUSTER_NAME \
    --location GOOGLE_CLOUD_LOCATION

Remplacez les éléments suivants :

  • CLUSTER_NAME : nom de votre cluster.
  • GOOGLE_CLOUD_LOCATION : nom de l'emplacement Google Cloudqui gère le cluster

Voici un extrait du type de résultat attendu :

{
  "name": "some-cluster-name",
  "description": "test-cluster",
  ...
  "errors": [
  {
    "message": "Replica (replica-name)": kube-controller-manager is unhealthy"
  },
  {
    "message": "Replica (replica-name)": not enough disk space on root volume, only 9 MB left"
  }
  ]
  ...
}

Dans cet exemple, le message d'erreur indique qu'un composant kube-controller-manager n'est pas opérationnel, et que la capacité sur le volume racine du nœud d'un plan de contrôle est trop faible.

Étapes suivantes

Si vous avez besoin d'une aide supplémentaire, contactez Cloud Customer Care.