Fehlerbehebung für GKE

Auf dieser Seite finden Sie Links zu Seiten zur Fehlerbehebung für häufige Probleme, die bei der Verwendung von Google Kubernetes Engine (GKE) auftreten können. Diese Seite richtet sich an Administratoren und Architekten, Sicherheitsspezialisten, Netzwerkspezialisten oder Speicherspezialisten, die Probleme mit GKE-Konfigurationen beheben. Weitere Informationen zu GKE-Rollen finden Sie unter Häufig verwendete GKE-Nutzerrollen und -Aufgaben.

Wenn Sie noch nicht mit der Fehlerbehebung in GKE vertraut sind oder einen allgemeinen Überblick über grundlegende Tools und Techniken benötigen, lesen Sie zuerst Einführung in die Fehlerbehebung.

Informationen zum Diagnostizieren und Beheben von Problemen, die in verschiedenen Phasen der Arbeit mit Ihrer GKE-Infrastruktur auftreten, finden Sie in den folgenden Abschnitten:

Auf dieser Seite finden Sie auch allgemeine Themen zur Fehlerbehebung:

Informationen zur Fehlerbehebung bei GKE-Netzwerken finden Sie in der GKE-Netzwerkdokumentation unter Fehlerbehebung bei GKE-Netzwerken.

Einführung in die Fehlerbehebung

Thema Beschreibung
Einführung in die Fehlerbehebung für GKE Machen Sie sich mit dem allgemeinen Prozess und den grundlegenden Konzepten vertraut, um mit der Fehlerbehebung in GKE zu beginnen.
Service Health und Vorfälle prüfen Hier erfahren Sie, wie Sie den Status von GKE und zugehörigen Google Cloud -Diensten prüfen, um Plattformprobleme auszuschließen.
Cluster- und Arbeitslaststatus in der Google Cloud -Konsole prüfen Hier erfahren Sie, wie Sie mit der Google Cloud Console GKE-Probleme untersuchen und beheben.
Clusterstatus mit kubectl untersuchen Häufig verwendete kubectl-Befehle und -Techniken zur Diagnose von Problemen in Ihren Clustern und Arbeitslasten.
Verlaufsanalyse mit Cloud Logging durchführen Sie wissen, wie Sie Cloud Logging effektiv nutzen, um die Ursachen von Problemen in GKE zu ermitteln.
Proaktives Monitoring mit Cloud Monitoring durchführen Verwenden Sie Cloud Monitoring-Dashboards und -Messwerte, um GKE-Probleme zu identifizieren, zu diagnostizieren und zu beheben.
Diagnose mit Gemini Cloud Assist beschleunigen Hier erfahren Sie, wie Gemini Sie bei der Diagnose und Behebung von GKE-Problemen unterstützen kann.
Alles zusammenführen: Beispiel für ein Szenario zur Fehlerbehebung Folgen Sie einem detaillierten Beispiel für die Fehlerbehebung in einem häufigen Szenario in GKE.

Clustereinrichtung

Thema Beschreibung
Cluster erstellen Probleme beim Erstellen von Clustern beheben
Autopilot-Cluster Diagnostizieren und beheben Sie Probleme mit GKE Autopilot-Clustern, einschließlich Problemen beim Erstellen von Clustern, beim Löschen von Namespaces, beim Skalieren und bei Arbeitslasten.
Kubectl-Befehlszeilentool Fehlerbehebung für das kubectl-Befehlszeilentool in GKE, einschließlich Problemen mit Authentifizierung und Autorisierung. Auf dieser Seite finden Sie auch Informationen zur Fehlerbehebung beim Konnectivity-Proxy, um zu prüfen, ob er die Ursache dafür ist, dass die Befehle kubectl logs, attach, exec oder port-forward nicht mehr reagieren.
Standardknotenpools Fehlerbehebung bei GKE Standard-Knotenpools, einschließlich Problemen beim Erstellen von Knotenpools, Best-Effort-Bereitstellung, beschädigten Instanzmetadaten und der Migration von Arbeitslasten zu neuen Knotenpools.
Knotenregistrierung Hier erfahren Sie, wie Sie Probleme beheben, die beim Hinzufügen von Knoten zu Ihrem GKE Standard-Cluster auftreten können, z. B. Fehler bei der Knotenregistrierung und fehlende Voraussetzungen für die erfolgreiche Knotenregistrierung.
Containerlaufzeit Fehlerbehebung bei Container-Runtimes in GKE, einschließlich Problemen mit containerd und dockershim sowie privaten Registries.

Autoscaling

Thema Beschreibung
Cluster Autoscaler skaliert nicht herunter Häufige Gründe dafür, dass in Ihrem Cluster nicht ausgelastete Knoten nicht entfernt werden, ermitteln und beheben Hier erfahren Sie, wie Sie nach Problemen wie restriktiven PodDisruptionBudgets, Pods mit lokalem Speicher oder bestimmten Annotationen (z. B. "cluster-autoscaler.kubernetes.io/safe-to-evict": "false") suchen, die das Entfernen von Knoten verhindern.
Cluster Autoscaler skaliert nicht hoch Hier erfahren Sie, warum der Cluster Autoscaler keine neuen Knoten hinzufügt, um die Nachfrage zu decken. Prüfen Sie, ob es Pods gibt, die nicht geplant werden können, ob Sie die Größenlimits für Cluster oder Knotenpools erreicht haben, und ermitteln Sie potenzielle Probleme mit Ressourcenkontingenten oder der regionalen VM-Verfügbarkeit.
Horizontales Pod-Autoscaling Fehlerbehebung bei Problemen mit dem horizontalen Pod-Autoscaler, der die Pod-Replikate Ihrer Anwendung nicht skaliert. Häufige Probleme beheben, z. B. falsch konfigurierte HorizontalPodAutoscaler-Objekte oder Probleme mit der Metrikpipeline.

Speicher

Thema Beschreibung
Speicherplatz Speicherprobleme beheben, einschließlich Probleme mit regionalen nichtflüchtigen Speichern, der Laufwerksleistung und der Volume-Erweiterung.

Clustersicherheit

Thema Beschreibung
Authentifizierung Beheben Sie Authentifizierungsprobleme in GKE, einschließlich Problemen mit RBAC, Workload Identity Federation for GKE und dem GKE-Metadatenserver.
Dienstkonten Fehlerbehebung bei Dienstkonten, einschließlich der Wiederherstellung des Standarddienstkontos und der Aktivierung des Compute Engine-Standarddienstkontos.
Secrets auf Anwendungsebene Hier finden Sie Informationen zur Fehlerbehebung bei Problemen, die bei der Konfiguration der Verschlüsselung von Secrets auf Anwendungsebene auftreten können, einschließlich fehlgeschlagener Updates und Fehlern, bei denen Sie einen Cloud KMS-Schlüssel nicht verwenden können oder bei denen die Cloud KMS-Schlüsselversion gelöscht wurde.

Die Stammzertifizierungsstelle des Clusters läuft bald ab

Thema Beschreibung
Ablauf der Stammzertifizierungsstelle (CA) Wenn die Stammzertifizierungsstelle (CA) Ihres Clusters bald abläuft, erfahren Sie hier, wie Sie eine Rotation der Anmeldedaten durchführen, um Unterbrechungen des normalen Clusterbetriebs zu vermeiden.

Arbeitslasten

Thema Beschreibung
Bereitgestellte Arbeitslasten Fehlerbehebung für Arbeitslasten, die in einem GKE-Cluster ausgeführt werden, einschließlich PodUnschedulable. Im Abschnitt „PodUnschedulable“ finden Sie Informationen zu Fehlern wie MatchNodeSelector und Does not have minimum availability.
Image-Pulls Fehlerbehebung beim Abrufen von Images Hier erfahren Sie, was die Ursachen für Status wie ImagePullBackOff und ErrImagePull sind und wie Sie diese Status beheben können, indem Sie häufige Probleme wie Authentifizierung und Netzwerkverbindung beheben.
CrashLoopBackOff-Ereignisse Fehlerbehebung bei CrashLoopBackOff-Ereignissen in GKE. Probleme wie Ressourcenerschöpfung, Fehlkonfigurationen von Apps und Fehler bei Aktivitätsprüfungen diagnostizieren
OOM-Ereignisse Fehlerbehebung bei Kubernetes-Ereignissen vom Typ „Out of Memory“ (OOM) Ursachen ermitteln, Ereignistypen unterscheiden und effektive Lösungen für OOM-Kills auf Container- und Knotenebene anwenden.
Arm-Arbeitslasten Beheben Sie Probleme mit Arm-Arbeitslasten, einschließlich abstürzender Pods auf Arm-Knoten.
TPUs Fehlerbehebung bei TPUs, einschließlich Problemen mit Kontingenten, der automatischen Knotenbereitstellung, der Arbeitslastkonfiguration und der Planung.
GPUs Fehlerbehebung bei GPUs, einschließlich Problemen mit der GPU-Treiberinstallation, Geräte-Plug-in-Fehlern und Container-Images.

Clusterverwaltung

Thema Beschreibung
Cluster-Upgrades Fehlerbehebung und Behebung von Problemen bei GKE-Cluster- und Knotenupgrades, einschließlich langer oder unvollständiger Upgrades, unerwarteter automatischer Upgrades, Fehler und Probleme nach dem Upgrade.
Webhooks Hier erfahren Sie, wie Sie Probleme beheben und für die Stabilität der Steuerungsebene Ihres Clusters sorgen, wenn Sie Zulassungs-Webhooks verwenden.
Namespace bleibt im Status Terminating hängen Beheben Sie Probleme mit Namespaces, die im Status Terminating festhängen, indem Sie die fehlerhaften Komponenten, die das Löschen blockieren, identifizieren und entfernen.
Gleichzeitige Vorgänge Hier erfahren Sie, wie Sie Fehler bei gleichzeitig ausgeführten Vorgängen beheben, indem Sie diese Fehler identifizieren und beheben, indem Sie warten, bis die Vorgänge abgeschlossen sind.

Monitoring

Thema Beschreibung
Systemmesswerte Fehlerbehebung, wenn Systemmesswerte nicht in Cloud Monitoring angezeigt werden.
Monitoring-Dashboards Fehlerbehebung bei Monitoring-Dashboards, einschließlich Problemen beim Aktivieren des Monitorings, fehlenden Kubernetes-Ressourcen und Berechtigungen.
Logging Beheben Sie Probleme mit dem Logging, einschließlich Probleme beim Aktivieren des Loggings, fehlender Logs und Kontingente.

4xx-Fehler

Thema Beschreibung
4xx-Fehler Beheben Sie einige der 400-, 401-, 403- und 404-Fehler, die bei der Verwendung von GKE auftreten können. Auf dieser Seite finden Sie auch Informationen zur Fehlerbehebung bei Fehlern aufgrund fehlender Bearbeitungsberechtigungen für das Konto.

Bekannte Probleme

Thema Beschreibung
Bekannte Probleme Bekannte Probleme, die sich auf die Verwendung von GKE auswirken können, identifizieren und beheben

Nächste Schritte

  • Wenn Sie in der Dokumentation keine Lösung für Ihr Problem finden, lesen Sie den Abschnitt Support erhalten. Dort finden Sie weitere Hilfe, z. B. zu den folgenden Themen: