Résoudre les problèmes liés à GKE

Ce document répertorie les documents de dépannage pour les problèmes courants que vous pouvez rencontrer lorsque vous utilisez Google Kubernetes Engine (GKE). Que vous diagnostiquiez des erreurs de charge de travail telles que ImagePullBackOff et CrashLoopBackOff, que vous déboguiez le comportement d'autoscaling du cluster, que vous résolviez des problèmes de PersistentVolume ou que vous résolviez des problèmes d'enregistrement de nœuds, les documents répertoriés ici peuvent vous aider.

Si vous débutez dans le dépannage dans GKE, commencez par la section Présentation du dépannage.

Pour diagnostiquer et résoudre les problèmes que vous rencontrez, consultez les documents des sections suivantes :

Pour résoudre les problèmes de mise en réseau GKE, consultez la section Résoudre les problèmes de mise en réseau GKE dans la documentation sur la mise en réseau GKE.

Ce document est destiné aux administrateurs et aux architectes, aux spécialistes de la sécurité, aux spécialistes de la mise en réseau ou aux spécialistes du stockage qui résolvent les problèmes liés aux configurations GKE. Pour en savoir plus sur les rôles GKE, consultez la section Rôles utilisateur et tâches courantes de GKE.

Présentation du dépannage

Sujet Description
Présentation du dépannage GKE Commencez à résoudre les problèmes liés à GKE en découvrant le processus global et les concepts fondamentaux.
Vérifier l'état et les incidents des services Découvrez comment vérifier l'état de GKE et des services associés Google Cloud pour exclure les problèmes de plate-forme.
Évaluer l'état du cluster et de la charge de travail dans la Google Cloud console Découvrez comment utiliser la Google Cloud console pour examiner et résoudre les problèmes liés à GKE.
Examiner l'état d'un cluster avec kubectl Découvrez les commandes et techniques kubectl courantes pour diagnostiquer les problèmes dans vos clusters et charges de travail.
Effectuer une analyse historique avec Cloud Logging Découvrez comment utiliser efficacement Cloud Logging pour identifier les causes profondes de problèmes dans GKE.
Effectuer une surveillance proactive avec Cloud Monitoring Utilisez les tableaux de bord et les métriques Cloud Monitoring pour identifier, diagnostiquer et résoudre les problèmes liés à GKE.
Accélérer le diagnostic avec Gemini Cloud Assist Découvrez comment Gemini peut vous aider à diagnostiquer et à résoudre les problèmes liés à GKE.
Synthèse : exemple de scénario de dépannage Suivez un exemple pas à pas de dépannage d'un scénario courant dans GKE.

Configurer le cluster

Sujet Description
Création de clusters Résolvez les problèmes liés à la création de clusters.
Clusters Autopilot Diagnostiquez et résolvez les problèmes liés aux clusters GKE Autopilot, y compris la création de clusters, la suppression d'espaces de noms, le scaling et les problèmes de charge de travail.
Outil de ligne de commande Kubectl Résolvez les problèmes liés à l'outil de ligne de commande kubectl dans GKE, y compris les problèmes d'authentification et d'autorisation. Cette page fournit également des conseils sur la résolution des problèmes liés au proxy Konnectivity pour vérifier s'il empêche les commandes kubectl logs, attach, exec, ou port-forward de répondre.
Pools de nœuds standards Résolvez les problèmes liés aux pools de nœuds GKE Standard, y compris les problèmes liés à la création de pools de nœuds, au provisionnement au mieux, aux métadonnées d'instance corrompues et à la migration des charges de travail vers de nouveaux pools de nœuds.
État NotReady du nœud Découvrez comment diagnostiquer et résoudre l'état du nœud NotReady dans GKE en résolvant les causes courantes telles que les pénuries de ressources, les problèmes de réseau et les défaillances de composants.
Enregistrement des nœuds Résolvez les problèmes qui se produisent lorsque vous ajoutez des nœuds à votre cluster GKE Standard, tels que les échecs d'enregistrement de nœuds et les conditions préalables manquantes pour un enregistrement réussi des nœuds.
Environnement d'exécution du conteneur Résolvez les problèmes liés aux environnements d'exécution de conteneurs dans GKE, y compris les problèmes liés à containerd et dockershim, et aux registres privés.

Autoscaling

Sujet Description
L'autoscaler de cluster n'effectue pas de scaling à la baisse Diagnostiquez et résolvez les raisons courantes pour lesquelles votre cluster ne supprime pas les nœuds sous-utilisés. Découvrez comment vérifier les problèmes tels que les PodDisruptionBudgets, les pods avec stockage local ou les annotations spécifiques (par exemple, "cluster-autoscaler.kubernetes.io/safe-to-evict": "false") qui empêchent l'éviction des nœuds.
L'autoscaler de cluster n'effectue pas de scaling à la hausse Découvrez pourquoi l'autoscaler de cluster n'ajoute pas de nouveaux nœuds pour répondre à la demande. Recherchez les pods non planifiables, vérifiez que vous n'avez pas atteint les limites de taille du cluster ou du pool de nœuds et identifiez les problèmes potentiels de quota de ressources ou de disponibilité régionale des VM.
Autoscaling horizontal des pods Résolvez les problèmes liés à l'Autoscaler horizontal de pods qui n'effectue pas de scaling des répliques de pods de votre application. Résolvez les problèmes courants, tels que les objets HorizontalPodAutoscaler mal configurés ou les problèmes liés au pipeline de métriques

Stockage

Sujet Description
Stockage Résolvez les problèmes de stockage, y compris les problèmes liés aux disques persistants régionaux, aux performances des disques et à l'expansion des volumes.

Sécurité du cluster

Sujet Description
Authentification Résolvez les problèmes d'authentification dans GKE, y compris les problèmes liés au contrôle d'accès basé sur les rôles (RBAC), à Workload Identity Federation for GKE et au serveur de métadonnées GKE.
Comptes de service Résolvez les problèmes liés aux comptes de service, y compris la restauration du compte de service par défaut et l'activation du compte de service Compute Engine par défaut.
Secrets au niveau de la couche application Résolvez les problèmes qui peuvent survenir lors de la configuration du chiffrement des secrets au niveau de la couche application, y compris les échecs de mise à jour et les erreurs lorsque vous ne pouvez pas utiliser de clé Cloud KMS ou lorsque la version de clé Cloud KMS a été détruite.

L'autorité de certification racine du cluster arrive bientôt à expiration

Sujet Description
Expiration de l'autorité de certification racine Si l'autorité de certification racine de votre cluster arrive bientôt à expiration, découvrez comment effectuer une rotation des identifiants pour éviter que les opérations normales du cluster ne soient interrompues.

Charges de travail

Sujet Description
Charges de travail déployées Résolvez les erreurs liées aux charges de travail s'exécutant dans un cluster GKE, y compris PodUnschedulable. Consultez la section PodUnschedulable pour obtenir des conseils sur les erreurs telles que MatchNodeSelector et Does not have minimum availability.
Extractions d'images Résolvez les problèmes liés aux extractions d'images. Découvrez les causes des états tels que ImagePullBackOff et ErrImagePull et comment résoudre ces états en corrigeant les problèmes courants tels que l'authentification et la connectivité réseau.
Événements CrashLoopBackOff Résolvez les problèmes liés aux événements CrashLoopBackOff dans GKE. Diagnostiquez les problèmes tels que l'épuisement des ressources, les erreurs de configuration des applications et les échecs de sonde de vivacité.
Événements OOM Résolvez les problèmes liés aux événements Kubernetes Out Of Memory (OOM). Identifiez les causes, distinguez les types d'événements et appliquez des solutions efficaces pour les suppressions OOM au niveau du conteneur et du nœud.
Charges de travail Arm Résolvez les problèmes liés aux charges de travail Arm, y compris les plantages de pods sur les nœuds Arm
TPU Résolvez les problèmes liés aux TPU, y compris les problèmes liés aux quotas, au provisionnement automatique des nœuds , à la configuration des charges de travail et à la planification.
GPU Résolvez les problèmes liés aux GPU, y compris les problèmes liés à l'installation des pilotes de GPU, aux erreurs de plug-in d'appareil et aux images de conteneurs.

Gestion du cluster

Sujet Description
Mises à niveau de clusters Résolvez les problèmes liés aux mises à niveau des clusters et des nœuds GKE , y compris les mises à niveau longues ou incomplètes, les mises à niveau automatiques inattendues , les échecs et les problèmes post-mise à niveau.
Webhook Découvrez comment résoudre les problèmes et assurer la stabilité du plan de contrôle de votre cluster lorsque vous utilisez des webhooks d'admission.
Espace de noms bloqué à l'état Terminating Résolvez les problèmes liés aux espaces de noms bloqués à l'état Terminating en identifiant et en supprimant les composants non opérationnels qui bloquent la suppression.
Opérations simultanées Résolvez les problèmes liés aux opérations simultanées en apprenant à identifier ces erreurs et à les résoudre en attendant la fin des opérations.

Monitoring

Sujet Description
Métriques système Résolvez les problèmes liés aux métriques système qui n'apparaissent pas dans Cloud Monitoring.
Tableaux de bord Monitoring Résolvez les problèmes liés aux tableaux de bord Monitoring, y compris les problèmes liés à l'activation de la surveillance, aux ressources Kubernetes manquantes et aux autorisations.
Résoudre les problèmes liés aux journaux manquants Résolvez les problèmes liés aux journaux GKE manquants. Découvrez comment vérifier l'état de l'API , les paramètres du cluster, les autorisations, les quotas, les filtres et le comportement des applications.

Erreurs 4XX

Sujet Description
Erreurs 4xx Résolvez certains problèmes liés aux erreurs 400, 401, 403 et 404 que vous pouvez rencontrer lorsque vous utilisez GKE. Cette page fournit également des informations sur la résolution des problèmes liés aux autorisations de modification manquantes dans les erreurs de compte.

Problèmes connus

Sujet Description
Problèmes connus Identifiez et résolvez les problèmes connus qui peuvent affecter votre utilisation de GKE.

Étape suivante