In diesem Dokument erfahren Sie, wie Sie Probleme beheben, bei denen GKE-Arbeitslasten nicht auf Knoten geplant werden können, die durch eine benutzerdefinierte ComputeClass definiert sind, oder wenn der Cluster Autoscaler nicht die erwarteten Maschinentypen bereitstellt.
Dieses Dokument richtet sich an Anwendungsentwickler, Plattformadministratoren und ‑operatoren, die benutzerdefinierte ComputeClasses verwenden, um die Planung von Arbeitslasten und die automatische Erstellung von Knotenpools in GKE zu verwalten. Weitere Informationen zu den gängigen Rollen und Beispielaufgaben, auf die in Google Cloud Inhalten verwiesen wird, finden Sie unter Häufig verwendete GKE-Nutzerrollen und -Aufgaben.
Wichtige Konzepte
Zur Fehlerbehebung sollten Sie sich mit den folgenden GKE-Komponenten und ‑Mechanismen vertraut machen:
Benutzerdefinierte ComputeClass: Eine GKE-spezifische Ressource, mit der Sie eine priorisierte Liste von Knotenkonfigurationen für das Autoscaling definieren können. Weitere Informationen finden Sie unter Benutzerdefinierte Compute-Klassen.
Cluster-Autoscaler: Die Komponente, die Ihrem Cluster automatisch Knoten hinzufügt oder daraus entfernt, je nach Bedarf der Arbeitslast. Weitere Informationen finden Sie unter GKE-Cluster-Autoscaling.
Automatische Erstellung von Knotenpools: Der GKE-Cluster-Autoscaler erstellt und verwaltet Knotenpools automatisch basierend auf den Anforderungen der Arbeitslast. Weitere Informationen finden Sie unter Automatische Erstellung von Knotenpools.
Fallback-Logik: Der Mechanismus, mit dem Cluster Autoscaler versucht, zuerst Knoten bereitzustellen, die Ihrer Regel mit der höchsten Priorität entsprechen. Weitere Informationen finden Sie unter Fallback-Computing-Prioritäten auswählen.
Fehlerbehebung nach Symptomen
In diesem Dokument werden die Schritte zur Fehlerbehebung in einer Reihenfolge von grundlegenden Prüfungen bis hin zu komplexeren Konfigurationen beschrieben. Für eine umfassendere Diagnose empfehlen wir, diese Schritte in der angegebenen Reihenfolge auszuführen. Wenn Sie bestimmte Probleme haben, können Sie auch die entsprechenden Links in der folgenden Tabelle aufrufen:
| Symptom | Schritte zur Fehlerbehebung |
|---|---|
Pod, der eine benutzerdefinierte ComputeClass anfordert, bleibt im Status Pending stecken |
|
| Cluster Autoscaler erstellt keine neuen Knoten, die der benutzerdefinierten Compute-Klasse entsprechen | |
| Der Cluster-Autoscaler erstellt Standardmaschinentypen anstelle von spezialisierten Typen. | Autoscaler-Fallbackverhalten analysieren |
Die Ausgabe des Befehls kubectl describe computeclass zeigt einen fehlerhaften Status an |
Benutzerdefinierte ComputeClass-Konfigurationen überprüfen |
| Arbeitslasten werden nicht zu Knoten mit höherer Priorität migriert | Allgemeinen Status des Cluster-Autoscalers prüfen |
| Bei Arbeitslasten mit GPU- oder Spot-VMs treten Planungsprobleme auf |
Probleme außerhalb des Zuständigkeitsbereichs
In diesem Dokument werden die folgenden Probleme nicht behandelt:
- Allgemeine GKE-Netzwerkprobleme, z. B. Pod-zu-Pod-Verbindungen oder Load-Balancing für Dienste.
- Probleme im Zusammenhang mit dem horizontalen Pod-Autoscaler (HPA) oder dem vertikalen Pod-Autoscaler (VPA).
- Probleme, die nicht mit dem benutzerdefinierten ComputeClass-Mechanismus zusammenhängen, z. B. Fehler auf Anwendungsebene oder PersistentVolume-Probleme, die nicht mit Planungsbeschränkungen zusammenhängen.
- Probleme mit dem Kontingent oder der Nichtverfügbarkeit von Ressourcen, die nicht direkt mit der Fallback-Logik für ComputeClass zusammenhängen.
Platzhaltervariablen identifizieren
Wenn Sie die Befehle in diesem Dokument anpassen möchten, geben Sie Ihre spezifischen Werte in die Spalte Variable ein. Geänderte Werte werden automatisch in allen Codeblöcken und Befehlen synchronisiert.
| Variable | Beschreibung |
|---|---|
| PROJECT_ID | Ihre Google Cloud -Projekt-ID. |
| LOCATION | Die Compute Engine-Region oder -Zone, in der sich der Cluster befindet. |
| CLUSTER_NAME | Der Name Ihres Clusters. |
| NODE_POOL_NAME | Der Name des zu prüfenden Knotenpools (falls für Standardcluster zutreffend). |
| CUSTOM_COMPUTECLASS_NAME | Der Name der benutzerdefinierten ComputeClass, die vom Pod angefordert wird. |
| NAMESPACE | Der Namespace des Pods, der nicht geplant werden kann. |
| POD_NAME | Der Name des Pods, der nicht geplant werden kann. |
Hinweis
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, damit Sie die nötigen Berechtigungen für die Aufgaben in diesem Dokument haben: Google Cloud
-
So greifen Sie auf GKE-Cluster zu:
Kubernetes Engine-Clusterbetrachter (
roles/container.viewer). -
So rufen Sie Logs auf:
Loganzeige (
roles/logging.viewer). -
So verwalten Sie GKE-Cluster:
Kubernetes Engine-Administrator (
roles/container.admin).
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Führen Sie den folgenden Befehl aus, um kubectl für die Kommunikation mit dem Cluster zu konfigurieren:
gcloud container clusters get-credentials CLUSTER_NAME
--location LOCATION
--project PROJECT_ID
Einfache Diagnosetests durchführen
Prüfen Sie, ob die Kernkomponenten richtig konfiguriert sind und der Cluster benutzerdefinierte ComputeClasses unterstützt.
Pod-Status und -Selektor prüfen
Prüfen Sie, ob sich der Pod im Status Pending befindet und die benutzerdefinierte ComputeClass korrekt anfordert.
Pods im Status
Pendingauflisten:kubectl get pods --all-namespaces -o wide | grep PendingPrüfen Sie die Spezifikation des Pods auf das Feld
nodeSelector:kubectl get pod POD_NAME -n NAMESPACE -o jsonpath='{.spec.nodeSelector}'
Ergebnis auswerten
- Ausgabe zeigt das Label: Das Feld
nodeSelectorist korrekt mit dem Labelcloud.google.com/compute-classkonfiguriert. - In der Ausgabe wird das Label nicht angezeigt:
- Interpretation:Möglicherweise ist das Feld
nodeSelectorfür das Labelcloud.google.com/compute-classin der Bereitstellungskonfiguration Ihrer Arbeitslast falsch oder fehlt. - Lösung:Ändern Sie die YAML-Datei Ihrer Arbeitslast, z. B. ein Deployment oder ein Job, um das Feld
nodeSelectorim Abschnittspec.template.speceinzufügen.
- Interpretation:Möglicherweise ist das Feld
Kompatibilität der Clusterversion prüfen
Benutzerdefinierte Compute-Klassen erfordern GKE-Version 1.30.3-gke.1451000 oder höher. Prüfen Sie, ob auf Ihrem Cluster eine Version ausgeführt wird, die benutzerdefinierte ComputeClasses unterstützt.
So prüfen Sie Ihre Clusterversion:
gcloud container clusters describe CLUSTER_NAME
--location LOCATION
--format="value(currentMasterVersion)"
Ergebnis auswerten
- Version
1.30.3-gke.1451000oder höher:Ihre Clusterversion unterstützt benutzerdefinierte Compute-Klassen. - Version vor
1.30.3-gke.1451000:- Interpretation:Ihr Cluster wurde nicht auf eine Version aktualisiert, die benutzerdefinierte ComputeClasses unterstützt.
- Lösung:Sie müssen ein Upgrade Ihres Clusters durchführen, um benutzerdefinierte ComputeClasses zu verwenden.
Benutzerdefinierte ComputeClass-Konfigurationen prüfen
Fehlkonfigurationen in der benutzerdefinierten ComputeClass-Ressource können verhindern, dass Pods geplant werden, oder dass GKE Knoten richtig bereitstellt.
Status und Zustand der ComputeClass prüfen
Prüfen Sie, ob GKE die benutzerdefinierte ComputeClass als fehlerfrei meldet.
Alle
ComputeClass-Ressourcen auflisten:kubectl get computeclassBeschreiben Sie die spezifische
ComputeClass-Ressource:kubectl describe computeclass CUSTOM_COMPUTECLASS_NAME
Ergebnis auswerten
Der Status ist
True:Die benutzerdefinierte ComputeClass ist fehlerfrei. Das folgende Beispiel zeigt eine fehlerfreie benutzerdefinierte ComputeClass:Status: Conditions: Last Transition Time: 2024-01-19T17:18:48Z Message: CCC is healthy. Reason: Health Status: True Type: HealthDiagnosestatus zeigt
Falsean:- Interpretation:Die benutzerdefinierte Compute-Klasse ist fehlerhaft. Sehen Sie sich die Felder
MessageundReasonin der Ausgabe an, um das Problem zu identifizieren. - Lösung: Führen Sie die Aktion aus, die dem Feld
Reasonin der Ausgabe entspricht:NodePoolNotExist: Stellen Sie sicher, dass der referenzierte Knotenpool vorhanden ist, oder aktualisieren Sie die ComputeClass, sodass sie auf einen vorhandenen Knotenpool verweist.ReservationUnusable: Konfiguration und Nutzung der referenzierten Reservierung prüfen.Invalid machine type: Aktualisieren Sie die ComputeClass, um einen Maschinentyp zu verwenden, der in der Region oder Zone des Clusters unterstützt wird.
- Interpretation:Die benutzerdefinierte Compute-Klasse ist fehlerhaft. Sehen Sie sich die Felder
unsatisfiable-Richtlinie validieren
Das Feld whenUnsatisfiable bestimmt das Verhalten, wenn keine Prioritätsregeln erfüllt werden können.
Richtlinie prüfen:
kubectl get computeclass CUSTOM_COMPUTECLASS_NAME -o yaml
Prüfen Sie das Feld spec.whenUnsatisfiable in der Ausgabe. Dieses Feld kann einen der folgenden Werte haben:
DoNotScaleUp: Pods bleiben im StatusPending, wenn keine bevorzugten Knoten erstellt werden können.ScaleUpAnyway: Pods werden möglicherweise auf Standardknotentypen (z. B. E2-Serie) ausgeführt, wenn bevorzugte Knoten nicht verfügbar sind.
Ergebnis auswerten
Die Wirkung der Richtlinie whenUnsatisfiable hängt von ihrem Wert ab:
- Wenn der Wert
DoNotScaleUpist:- Interpretation:Dies ist das erwartete Verhalten, wenn keine Prioritätsregeln erfüllt werden können, möglicherweise aufgrund von nicht verfügbaren Ressourcen oder Kontingentbeschränkungen. Wenn Pods auf bestimmte Hardware warten müssen, ist dieser Wert korrekt.
- Lösung:Wenn die Ausführung der Arbeitslast wichtiger ist als die Ausführung auf bestimmter Hardware, ändern Sie die Richtlinie in
ScaleUpAnyway.
- Wenn der Wert
ScaleUpAnywayist:- Interpretation:Das ist ganz normal. GKE greift auf Standardknotentypen zurück, da bevorzugte Knoten nicht verfügbar sind.
- Lösung:Wenn Pods nicht auf Standardknotentypen ausgeführt werden dürfen, ändern Sie die Richtlinie in
DoNotScaleUp.
- Standardverhalten:Wenn Sie keinen Wert für das Feld
whenUnsatisfiableangegeben haben und eine GKE-Version vor 1.33 verwenden, wird standardmäßig die RichtlinieScaleUpAnywayverwendet.
Das folgende Beispiel zeigt, wie Sie die Richtlinie aktualisieren, indem Sie das Feld whenUnsatisfiable in Ihrem ComputeClass-Manifest bearbeiten:
apiVersion: cloud.google.com/v1
kind: ComputeClass
metadata:
name: CUSTOM_COMPUTECLASS_NAME
spec:
# ... other fields
whenUnsatisfiable: DoNotScaleUp # or ScaleUpAnyway
Einschränkungen bei der Pod-Planung prüfen
Achten Sie darauf, dass Ihre Pod-Spezifikation mit den Attributen der Knoten kompatibel ist, die von der benutzerdefinierten ComputeClass bereitgestellt werden.
Pod-Ressourcenanfragen prüfen
Prüfen Sie, ob die CPU-, Arbeitsspeicher- und GPU-Anforderungen des Pods von mindestens einem der Maschinentypen erfüllt werden können, die im Feld priorities der benutzerdefinierten ComputeClass definiert sind.
Pod-Ressourcenanfragen abrufen:
kubectl get pod POD_NAME -n NAMESPACE -o jsonpath='{.spec.containers[*].resources.requests}'Prüfen Sie die Ausgabe auf
cpu,memoryund GPU-Anfragen wienvidia.com/gpu.Vergleichen Sie diese Anforderungen mit den Maschinentypen, die im Feld
prioritiesder benutzerdefinierten ComputeClass definiert sind:kubectl get computeclass CUSTOM_COMPUTECLASS_NAME -o jsonpath='{.spec.priorities}'Suchen Sie in der Ausgabe nach den Feldern
machineTypeodermachineFamily. Prüfen Sie für jeden Maschinentyp in der benutzerdefinierten ComputeClass die Spezifikationen in der Dokumentation zu Maschinentypen und prüfen Sie, ob die zuweisbaren Ressourcen größer als die Anfragen des Pods sind.
Ergebnis auswerten
- Kompatible Ressourcen:Die Ressourcenanforderungen des Pods sind kleiner oder gleich den zuweisbaren Ressourcen mindestens eines Maschinentyps in der ComputeClass.
Ressourcen überschreiten die Kapazität:
- Interpretation:Der Pod kann nicht geplant werden, da kein Maschinentyp in der ComputeClass genügend CPU, Arbeitsspeicher oder GPU bietet. Dies kann auch passieren, wenn das Feld
nodePoolAutoCreationauftruegesetzt ist und die Speicheranforderung des Pods die Limits automatisch erstellter Knotenpools überschreitet. - Lösung:Passen Sie entweder die Ressourcenanforderungen des Pods oder die Maschinentypen der benutzerdefinierten ComputeClass an:
- Pod-Ressourcenanfragen reduzieren: Wenn die Ressourcenanfragen hoch sind, senken Sie die Werte für
cpu,memoryodergpuin der YAML-Datei der Arbeitslast. - Größere Maschinentypen verwenden: Wenn die Anforderungen des Pods gerechtfertigt sind, ändern Sie das Feld
spec.prioritiesin Ihrem benutzerdefinierten ComputeClass-Manifest, um größeremachineType- odermachineFamily-Optionen einzuschließen, die die Anforderungen des Pods erfüllen können. Beispiel:
- Pod-Ressourcenanfragen reduzieren: Wenn die Ressourcenanfragen hoch sind, senken Sie die Werte für
spec: priorities: - machineType: n2d-highmem-96 # A larger machine type spot: true # ... other priorities- Interpretation:Der Pod kann nicht geplant werden, da kein Maschinentyp in der ComputeClass genügend CPU, Arbeitsspeicher oder GPU bietet. Dies kann auch passieren, wenn das Feld
Auf Konflikte bei Markierungen und Toleranzen prüfen
Für eine benutzerdefinierte ComputeClass erstellte Knoten haben den Taint cloud.google.com/compute-class=CUSTOM_COMPUTECLASS_NAME:NoSchedule.
GKE fügt diese Toleranz automatisch zu Pods hinzu.
Spezielle Hardware wie GPUs haben jedoch zusätzliche Taints wie den nvidia.com/gpu=present:NoSchedule-Taint. Wenn für Ihre ComputeClass Knoten mit spezialisierter Hardware verwendet werden, müssen Pods eine Toleranz für diese Markierungen haben, damit sie auf diesen Knoten geplant werden können.
Prüfen Sie das Feld tolerations für den Pod:
kubectl get pod POD_NAME
-n NAMESPACE
-o jsonpath='{.spec.tolerations}'
Ergebnis auswerten
- Korrekte Toleranzen:Taints und Toleranzen sind richtig konfiguriert.
Fehlende Toleranzen:
- Interpretation:Fehlende Toleranzen verhindern, dass der Pod auf Knoten mit Markierungen für spezielle Hardware geplant wird. Wenn für die ComputeClass beispielsweise GPU-Knoten verwendet werden, fehlt dem Pod möglicherweise die
nvidia.com/gpu=present:NoSchedule-Toleranz. GPU-spezifische Anforderungen finden Sie unter GPU-Konfiguration prüfen. Lösung:Fügen Sie im Feld
tolerationsin Ihrer Pod-Spezifikation die erforderlichen Toleranzen hinzu, die den Markierungen auf den von der ComputeClass definierten Knoten entsprechen. Fügen Sie beispielsweise für GPU-Knoten eine Toleranz für die Markierungnvidia.com/gpu=present:NoSchedulewie folgt hinzu:spec: template: spec: tolerations: - key: "nvidia.com/gpu" operator: "Exists" effect: "NoSchedule" # ... other tolerations and Pod spec
- Interpretation:Fehlende Toleranzen verhindern, dass der Pod auf Knoten mit Markierungen für spezielle Hardware geplant wird. Wenn für die ComputeClass beispielsweise GPU-Knoten verwendet werden, fehlt dem Pod möglicherweise die
Knotenpoolkonfiguration (Standardcluster)
In GKE-Standardclustern müssen manuell erstellte Knotenpools mit Labels und Markierungen versehen werden, damit sie mit einer benutzerdefinierten ComputeClass funktionieren.
Knotenpoollabels und ‑markierungen prüfen
Knotenpools in Ihrer benutzerdefinierten Compute-Klasse identifizieren Wenn die benutzerdefinierte ComputeClass das Feld
nodePoolsverwendet, notieren Sie sich die Namen der aufgeführten Knotenpools:kubectl get computeclass CUSTOM_COMPUTECLASS_NAME -o yamlPrüfen Sie für jeden Knotenpool, den Sie identifiziert haben, die Konfiguration:
gcloud container node-pools describe NODE_POOL_NAME --cluster CLUSTER_NAME --location LOCATION --format="yaml(config.labels, config.taints)"
Ergebnis auswerten
- Knotenpool richtig konfiguriert:Der Knotenpool hat das Label
cloud.google.com/compute-class: CUSTOM_COMPUTECLASS_NAMEund die Markierungcloud.google.com/compute-class=CUSTOM_COMPUTECLASS_NAME:NoSchedule. Falsch konfigurierter Knotenpool:
- Interpretation:Der Knotenpool wurde nicht mit dem Label und der Markierung konfiguriert, die erforderlich sind, um ihn der benutzerdefinierten Compute-Klasse zuzuordnen.
Lösung:Aktualisieren Sie den Knotenpool, um das Label und die Markierung hinzuzufügen:
Knotenlabel hinzufügen oder aktualisieren:
gcloud container node-pools update NODE_POOL_NAME \ --cluster=CLUSTER_NAME --location=LOCATION \ --node-labels=cloud.google.com/compute-class=CUSTOM_COMPUTECLASS_NAMESo fügen Sie einen Knoten-Taint hinzu oder aktualisieren ihn:
gcloud container node-pools update NODE_POOL_NAME \ --cluster=CLUSTER_NAME --location=LOCATION \ --node-taints=cloud.google.com/compute-class=CUSTOM_COMPUTECLASS_NAME:NoSchedule
Konfiguration der automatischen Knotenpoolerstellung prüfen
Sowohl für Autopilot- als auch für Standardcluster, bei denen nodePoolAutoCreation auf true festgelegt ist, muss die automatische Erstellung von Knotenpools richtig konfiguriert sein.
Prüfen, ob die automatische Erstellung von Knotenpools aktiviert ist
Prüfen Sie, ob das Feld
nodePoolAutoCreation.enabledin der benutzerdefinierten ComputeClass auftruegesetzt ist:kubectl get computeclass CUSTOM_COMPUTECLASS_NAME -o yamlPrüfen Sie, ob die automatische Erstellung von Knotenpools im Cluster aktiviert ist:
gcloud container clusters describe CLUSTER_NAME --location LOCATION --format="value(autoscaling.enableNodeAutoprovisioning)"
Wenn eine der beiden Optionen deaktiviert ist, werden durch die automatische Erstellung von Knotenpools keine neuen Knotenpools für Ihre benutzerdefinierte Compute-Klasse erstellt.
Ergebnis auswerten
- Automatisches Erstellen von Knotenpools aktiviert:In der ComputeClass ist das Feld
nodePoolAutoCreation.enabledauftruefestgelegt und die automatische Knotenbereitstellung ist auf Clusterebene aktiviert. Automatische Erstellung von Knotenpools deaktiviert:
- Interpretation:Die automatische Erstellung von Knotenpools ist deaktiviert, wenn der Wert des Felds
nodePoolAutoCreation.enabledin der ComputeClassfalseist oder fehlt oder wenn die automatische Bereitstellung von Knoten auf Clusterebene deaktiviert ist. Lösung:Aktivieren Sie die automatische Erstellung von Knotenpools:
Bearbeiten Sie die benutzerdefinierte ComputeClass-YAML-Datei, um
nodePoolAutoCreation: enabled: trueeinzufügen:spec: # ... priorities nodePoolAutoCreation: enabled: trueAutomatische Knotenpoolerstellung auf Clusterebene aktivieren und Ressourcenlimits konfigurieren:
gcloud container clusters update CLUSTER_NAME --location LOCATION \ --enable-autoprovisioning \ --autoprovisioning-min-cpu=MIN_CPU \ --autoprovisioning-max-cpu=MAX_CPU \ --autoprovisioning-min-memory=MIN_MEMORY \ --autoprovisioning-max-memory=MAX_MEMORY
- Interpretation:Die automatische Erstellung von Knotenpools ist deaktiviert, wenn der Wert des Felds
Ressourcenlimits für die automatische Erstellung von Knotenpools prüfen
Für die automatische Erstellung von Knotenpools gelten clusterweite Limits für CPU und Arbeitsspeicher. Wenn die aktuelle Nutzung des Clusters plus die Ressourcen eines neuen Knotens diese Limits überschreiten, werden durch die automatische Erstellung von Knotenpools keine neuen Knoten bereitgestellt.
So rufen Sie die Ressourcenlimits auf:
gcloud container clusters describe CLUSTER_NAME --location LOCATION --format="value(autoscaling.resourceLimits)"In der Ausgabe werden die Felder
resourceType,minimumundmaximumfür CPU und Arbeitsspeicher (in GB) aufgeführt.Sehen Sie sich die Maschinentypen in den Prioritäten Ihrer benutzerdefinierten ComputeClass an. Die CPU- und Arbeitsspeicherspezifikationen finden Sie in der Dokumentation zu Maschinentypen.
Ermitteln Sie die aktuelle Gesamt-CPU- und Arbeitsspeicherkapazität aller Knoten im Cluster. Die Summe aus der aktuellen Kapazität und den Ressourcen eines potenziellen neuen Knotens darf das maximale Limit für die automatische Erstellung von Knotenpools nicht überschreiten.
Ergebnis auswerten
- Ausreichende Kapazität:Der Cluster hat innerhalb der Ressourcenlimits für die automatische Erstellung von Knotenpools ausreichend CPU- und Arbeitsspeicherkapazität, um einen neuen Knoten bereitzustellen.
Limits überschritten:
- Interpretation:Bei der automatischen Erstellung von Knotenpools können keine neuen Knoten bereitgestellt werden, da der Cluster CPU- oder Arbeitsspeicherlimits erreicht hat oder die Limits für die Maschinentypen in der ComputeClass zu niedrig festgelegt wurden.
Lösung:Erhöhen Sie die Ressourcenlimits für die automatische Erstellung von Knotenpools:
Legen Sie neue Höchstgrenzen fest, die die aktuelle Nutzung und das zukünftige Wachstum berücksichtigen, einschließlich der größten Maschinentypen in der benutzerdefinierten ComputeClass.
Ressourcenlimits für die automatische Erstellung von Knotenpools aktualisieren Sie können mehrere Ressourcen in einem Befehl festlegen:
gcloud container clusters update CLUSTER_NAME --location LOCATION \ --set-nap-resource-limits resourceType=cpu,maximum=NEW_MAX_CPU \ --set-nap-resource-limits resourceType=memory,maximum=NEW_MAX_GB
Autoscaling-Fallback-Verhalten analysieren
In diesem Abschnitt erfahren Sie, wie Sie externe Faktoren untersuchen können, um herauszufinden, warum der Cluster Autoscaler bevorzugte Optionen möglicherweise überspringt und Fallbacks verwendet oder nicht hochskaliert wird.
Für benutzerdefinierte Compute-Klassen wird eine priorisierte Fallback-Logik verwendet. Wenn ein Pod nicht auf Knoten geplant wird, die der Regel mit der höchsten Priorität entsprechen, liegt das häufig an Einschränkungen wie nicht verfügbaren Ressourcen oder Projektkontingenten. Wenn GKE keine Knoten bereitstellen kann, die einer bestimmten Prioritätsregel entsprechen, z. B. aufgrund eines ZONE_RESOURCE_POOL_EXHAUSTED- oder QUOTA_EXCEEDED-Fehlers von Compute Engine, versucht der Cluster Autoscaler sofort die nächste Regel in der Liste priorities. Es gibt keine Wartezeit, bevor GKE auf die nächste Priorität zurückgreift, außer bei Verwendung von TPUs oder des Bereitstellungsmodells „Flex-Start“, das eine konfigurierbare Verzögerung unterstützt.
Auf nicht verfügbare Ressourcen prüfen
Prüfen Sie, ob Ressourcen in der angegebenen Zone nicht verfügbar sind. Sehen Sie dazu in den Cluster-Autoscaler-Logs oder in den Fehlern der verwalteten Instanzgruppe (MIG) von Compute Engine nach.
Option 1: Sichtbarkeitsereignisse von Cluster Autoscaler prüfen
Rufen Sie in der Google Cloud Console Cloud Logging > Log-Explorer auf und führen Sie die folgende Abfrage aus, um Autoscaler-Ereignisse zu finden, die auf eine Nichtverfügbarkeit von Ressourcen hinweisen:
resource.type="k8s_cluster"
resource.labels.location="LOCATION"
resource.labels.cluster_name="CLUSTER_NAME"
log_id("container.googleapis.com/cluster-autoscaler-visibility")
jsonPayload.noScaleUpReason.messageId="no.scale.up.nap.resource.exhausted"
Option 2: MIG-Fehler prüfen
Sie können in der Google Cloud Console oder mit einer Cloud Logging-Abfrage nach MIG-Fehlern suchen.
Über die Google Cloud -Konsole:
- Rufen Sie in der Google Cloud Console Compute Engine > Instanzgruppen auf.
- Suchen Sie nach der MIG, die dem Knotenpool entspricht, der nicht hochskaliert werden kann.
- Klicken Sie auf den Namen der MIG und rufen Sie den Tab Fehler auf. Suchen Sie nach Meldungen, die auf eine Erschöpfung der Ressourcen hinweisen.
Cloud Logging-Abfrage verwenden:
- Rufen Sie in der Google Cloud Console Cloud Logging > Log-Explorer auf.
- Führen Sie die folgende Abfrage aus, um nach Fehlern aufgrund von Ressourcenerschöpfung in der MIG zu suchen:
resource.type="gce_instance" log_id("cloudaudit.googleapis.com/activity") protoPayload.status.message:("ZONE_RESOURCE_POOL_EXHAUSTED" OR "does not have enough resources available to fulfill the request" OR "resource pool exhausted" OR "does not exist in zone")
Ergebnis auswerten
- Ressourcen sind verfügbar:Wenn in den Logs die
ZONE_RESOURCE_POOL_EXHAUSTED-Meldungen nicht angezeigt werden, ist es unwahrscheinlich, dass die Nichtverfügbarkeit von Ressourcen die Ursache für den Scale-up-Fehler ist. Ressourcen sind nicht verfügbar:
- Interpretation:Die Knotenbereitstellung schlägt aufgrund einer vorübergehenden hohen Nachfrage nach einem bestimmten Maschinentyp (insbesondere Spot-VMs oder GPUs) in dieser Zone fehl oder weil ein Pod durch die PersistentVolume-Affinität auf eine Zone beschränkt ist, in der Ressourcen nicht verfügbar sind.
Lösung:Die Nichtverfügbarkeit von Ressourcen ist vorübergehend. Sie können die Ausfallsicherheit jedoch verbessern, indem Sie Ihre Konfiguration flexibler gestalten:
Maschinentypen diversifizieren: Das Feld
spec.prioritiesin der benutzerdefinierten ComputeClass muss mehrere Maschinentypen oder ‑familien als Fallbacks enthalten:spec: priorities: - machineFamily: c3 # Highest priority - machineFamily: n2d # Fallback option - machineFamily: e2 # Lowest priorityRegionale Cluster verwenden: Wenn der Cluster zonal ist, ist er anfällig für die Nichtverfügbarkeit von Ressourcen in dieser einzelnen Zone. Wenn Sie regionale Cluster verwenden, kann der Cluster Autoscaler versuchen, Knoten in anderen Zonen innerhalb der Region bereitzustellen, in denen möglicherweise Kapazität verfügbar ist.
Compute Engine-Reservierungen verwenden: Für kritische Arbeitslasten, bei denen keine Verzögerungen toleriert werden können, erstellen Sie Compute Engine-Reservierungen, um die Kapazität für bestimmte Maschinentypen sicherzustellen.
Projektkontingente prüfen
Prüfen Sie, ob Ihr Projekt ein ausreichendes Kontingent für die Ressourcen wie CPUs, GPUs und IP-Adressen hat, die für die neuen Knoten erforderlich sind.
Prüfen Sie die Autoscaling-Logs auf Kontingentfehler. So suchen Sie mit Cloud Logging in den Sichtbarkeitsereignissen des Autoscalers nach Fehlermeldungen im Zusammenhang mit Kontingenten:
resource.type="k8s_cluster" resource.labels.location="LOCATION" resource.labels.cluster_name="CLUSTER_NAME" log_id("container.googleapis.com/cluster-autoscaler-visibility") jsonPayload.noScaleUpReason.messageId="no.scale.up.nap.quota.exceeded"Alternativ können Sie die folgende Cloud Logging-Abfrage verwenden, um Logs für kontingentbezogene Fehler aus der MIG zu prüfen:
resource.type="gce_instance" protoPayload.methodName:"compute.instances.insert" protoPayload.status.message:"QUOTA_EXCEEDED" severity=ERRORSo rufen Sie Kontingente in der Google Cloud Console auf:
- Rufen Sie in der Google Cloud Console die Seite IAM & Verwaltung > Kontingente auf.
- Filtern Sie nach dem Dienst Compute Engine API.
- Prüfen Sie die Nutzung relevanter Messwerte wie CPUs, GPUs (alle Typen) und verwendete IP-Adressen für die Region, in der sich Ihr GKE-Cluster befindet. Prüfen Sie, ob die aktuelle Nutzung das Limit erreicht hat.
Ergebnis auswerten
- Kontingent unter den Grenzwerten:Wenn die Kontingentnutzung unter den Kontingentlimits liegt und in den Logs keine
QUOTA_EXCEEDED-Fehler gefunden werden, verhindern Kontingentlimits keine Aufskalierung. - Kontingent überschritten:
- Interpretation:Die Knotenbereitstellung schlägt fehl, weil das Kontingent für Ressourcen wie CPUs, GPUs, IP-Adressen oder MIGs nicht ausreicht.
- Lösung:Wenn Ihr Projekt ein Kontingentlimit erreicht hat, fordern Sie eine Kontingenterhöhung an.
Erweiterte Konfigurationen
Konfigurationen wie GPUs, Spot-VMs und Compute Engine-Reservierungen haben eigene spezifische Anforderungen und potenzielle Fehlerquellen, die geprüft werden müssen.
GPU-Konfiguration prüfen
Prüfen Sie für benutzerdefinierte Compute-Klassen, die GPU-Knoten bereitstellen, die GPU-Konfiguration in der benutzerdefinierten Compute-Klasse und stellen Sie sicher, dass der Pod die obligatorische nvidia.com/gpu-Toleranz hat.
Prüfen Sie die YAML-Datei der benutzerdefinierten Compute-Klasse auf einen
gpu-Block in einer Prioritätsregel:kubectl get computeclass CUSTOM_COMPUTECLASS_NAME -o yamlIm
gpu-Block sollten die Feldertypeundcountangegeben werden, z. B.:priorities: - machineType: a2-highgpu-1g gpu: type: nvidia-tesla-a100 count: 1Prüfen Sie den Pod auf GPU-Toleranz. Jeder Pod, der auf einem GPU-Knoten geplant werden muss, muss die Toleranz
nvidia.com/gpuhaben, auch wenn der Pod selbst keine GPU anfordert.kubectl get pod POD_NAME -n NAMESPACE -o jsonpath='{.spec.tolerations}'Prüfen Sie das Feld
spec.tolerationsauf Toleranz.
Ergebnis auswerten
GPU richtig konfiguriert:Wenn die ComputeClass die GPU
typeundcountdefiniert und Pods die Toleranznvidia.com/gpuenthalten, ist die GPU-Konfiguration richtig. Im Folgenden wird die erforderliche Toleranz gezeigt:tolerations: - key: "nvidia.com/gpu" operator: "Exists" effect: "NoSchedule"GPU falsch konfiguriert:
- Interpretation:Möglicherweise fehlt dem Pod die erforderliche
nvidia.com/gpu-Toleranz, die ComputeClass ist aufgrund von GPU-Feldabweichungen möglicherweise fehlerhaft oder die GKE-Version verarbeitet die GPU-Konfiguration nicht richtig. - Lösung:Führen Sie eine der folgenden Aktionen aus:
- Ändern Sie die YAML-Datei der Arbeitslast, um die obligatorische GPU-Toleranz einzuschließen, und wenden Sie die YAML-Datei noch einmal an.
- Führen Sie ein Upgrade des GKE-Cluster durch. Wenn die benutzerdefinierte ComputeClass fehlerhaft ist und das Problem mit GPU-Feldern zusammenhängt, suchen Sie nach bekannten Problemen und führen Sie ein Upgrade auf eine gepatchte GKE-Version durch, z. B. 1.31.8-gke.1045000 oder höher.
- Interpretation:Möglicherweise fehlt dem Pod die erforderliche
Konfiguration von Spot-VMs prüfen
Wenn Sie Spot-VMs verwenden, muss die Einstellung spot: true in den richtigen Prioritätsregeln in Ihrem ComputeClass-Manifest enthalten sein. Machen Sie sich außerdem mit der Preislogik des Cluster Autoscalers vertraut.
Prüfen Sie das ComputeClass-Manifest:
kubectl get computeclass CUSTOM_COMPUTECLASS_NAME -o yaml
Suchen Sie in der Ausgabe im Feld spec.priorities nach spot: true, z. B.:
priorities:
- machineFamily: n2d
spot: true
Der Cluster Autoscaler verwendet möglicherweise Preisdaten von us-central1 als Baseline, wenn er die Kosten verschiedener Spot-VM-Typen vergleicht. Dies kann in anderen Regionen zu scheinbar nicht optimalen Entscheidungen führen. Das ist ein bekanntes Verhalten.
Ergebnis auswerten
- Spot-VMs sind richtig konfiguriert:Wenn das Feld
spot: trueangegeben ist und der Cluster-Autoscaler Spot-VMs bereitstellt, funktioniert die Konfiguration wie erwartet. Planung von Spot-VMs fehlgeschlagen:
- Interpretation:Pods, für die Spot-VMs erforderlich sind, können möglicherweise nicht auf Spot-VMs geplant werden, weil in der Zielzone keine Ressourcen verfügbar sind oder weil der Cluster Autoscaler aufgrund seines
us-central1-Preismodells einen anderen VM-Typ auswählt. Lösung:
- Wenn Sie vermuten, dass eine Ressource nicht verfügbar ist, lesen Sie den Abschnitt Ressourcenverfügbarkeit prüfen.
Wenn Sie die Auswahl von Spot-VMs steuern möchten, listen Sie die
machineType-Einträge in Ihrem Feldprioritiesfür Ihre Region explizit vom günstigsten zum teuersten auf. Mit diesem Ansatz haben Sie die direkte Kontrolle über die Fallback-Reihenfolge. Beispiel:spec: priorities: - machineType: t2d-standard-48 # Cheapest in this region spot: true - machineType: n2d-standard-48 # Fallback Spot option spot: true - machineType: n2d-standard-48 # On-demand fallback spot: false
- Interpretation:Pods, für die Spot-VMs erforderlich sind, können möglicherweise nicht auf Spot-VMs geplant werden, weil in der Zielzone keine Ressourcen verfügbar sind oder weil der Cluster Autoscaler aufgrund seines
Allgemeiner Status von Cluster Autoscaler
In diesem Abschnitt erfahren Sie, wie Sie nach Problemen suchen, die möglicherweise nicht direkt mit der benutzerdefinierten ComputeClass-Konfiguration zusammenhängen, aber den Betrieb beeinträchtigen.
Gleichzeitige Vorgänge prüfen
Prüfen Sie, ob gleichzeitig andere Cluster- oder Knotenpoolvorgänge ausgeführt werden. In GKE ist in der Regel nur ein Vorgang gleichzeitig zulässig, was das Autoscaling blockieren kann.
Laufende Vorgänge auflisten, die sich nicht im Status DONE befinden:
gcloud container operations list \
--location=LOCATION \
--filter='targetLink~"/clusters/CLUSTER_NAME" AND status!=DONE'
Wenn der Befehl Vorgänge zurückgibt, ist möglicherweise ein Vorgang wie ein Cluster-Upgrade, die Erstellung eines Knotenpools oder eine andere Änderung in Bearbeitung. Autoscaling-Ereignisse werden möglicherweise blockiert, bis dieser Vorgang abgeschlossen ist.
Ergebnis auswerten
- Keine gleichzeitigen Vorgänge:Wenn der Befehl
listeine leere Liste zurückgibt, wird die automatische Clusterskalierung nicht durch Vorgänge blockiert. Gleichzeitige Vorgänge gefunden:
- Interpretation:Wenn mit dem Befehl Vorgänge mit dem Status
RUNNINGoderPENDINGaufgeführt werden, ist möglicherweise ein gleichzeitiger Vorgang wie ein Cluster-Upgrade oder eine Knotenpooländerung im Gange, der das Autoscaling blockiert. Lösung:Warten Sie, bis der laufende Vorgang abgeschlossen ist. Sie können den Status mit einer Vorgangs-ID so überwachen:
gcloud container operations wait OPERATION_ID --location LOCATIONErsetzen Sie
OPERATION_IDdurch die ID aus der Ausgabe deslist-Befehls. Nach Abschluss des Blockierungsvorgangs sollte das Cluster-Autoscaling wieder normal funktionieren.
- Interpretation:Wenn mit dem Befehl Vorgänge mit dem Status
Aktive Migration prüfen
Wenn Sie feststellen, dass Arbeitslasten auf Knoten mit niedrigerer Priorität verbleiben, obwohl Knoten mit höherer Priorität verfügbar sind, prüfen Sie, ob die aktive Migration aktiviert ist. Wenn das Feld activeMigration.optimizeRulePriority in Ihrer ComputeClass auf false gesetzt oder weggelassen wird, verschiebt GKE Arbeitslasten nicht automatisch auf Knoten mit höherer Priorität, wenn diese verfügbar werden.
Sehen Sie sich das Feld
spec.tolerationsan, um die Pod-Toleranzen zu prüfen. Wenn der Pod Toleranzen hat, die mit Taints in mehreren Knotenpools mit unterschiedlichen Prioritäten übereinstimmen, kann der Scheduler ihn auf einem Knoten mit niedrigerer Priorität platzieren, wenn dieser zuerst verfügbar ist.kubectl get pod POD_NAME -n NAMESPACE -o jsonpath='{.spec.tolerations[*]}{"\n"}'Prüfen Sie das ComputeClass-Manifest auf das Feld
spec.activeMigration.optimizeRulePriority, um festzustellen, ob die aktive Migration aktiviert ist.kubectl get computeclass CUSTOM_COMPUTECLASS_NAME -o yaml
Ergebnis auswerten
- Aktive Migration aktiviert:Wenn das Feld
activeMigration.optimizeRulePrioritytrueist, versucht GKE, Arbeitslasten auf Knoten mit höherer Priorität zu verschieben, sobald diese verfügbar sind. Aktive Migration deaktiviert oder ineffektiv:
- Interpretation:Wenn das Feld
activeMigration.optimizeRulePriorityfalseist oder fehlt oder wenn die Toleranzen des Pods zu breit gefasst sind, verbleiben Arbeitslasten auf Knoten mit niedrigerer Priorität, wenn Knoten mit höherer Priorität verfügbar sind. So können Arbeitslasten auf Knoten mit niedrigerer Priorität geplant werden, die zuerst verfügbar werden. Lösung:Wenn Sie möchten, dass Arbeitslasten auf Knoten mit höherer Priorität verschoben werden, führen Sie eine der folgenden Aktionen aus:
- Verwenden Sie spezifischere Planungsbeschränkungen wie
nodeAffinity, um Knotenpools mit höherer Priorität zu bevorzugen. Bearbeiten Sie das ComputeClass-Manifest, um
activeMigration.optimizeRulePriority: truefestzulegen, und wenden Sie die YAML-Datei an:spec: activeMigration: optimizeRulePriority: true
- Verwenden Sie spezifischere Planungsbeschränkungen wie
- Interpretation:Wenn das Feld
Support anfordern
Wenn Sie in der Dokumentation keine Lösung für Ihr Problem finden, lesen Sie den Abschnitt Support erhalten. Dort finden Sie weitere Hilfe, z. B. zu den folgenden Themen:
- Sie können eine Supportanfrage erstellen, indem Sie sich an Cloud Customer Care wenden.
- Support von der Community erhalten, indem Sie Fragen auf Stack Overflow stellen und mit dem Tag
google-kubernetes-enginenach ähnlichen Problemen suchen. Sie können auch dem#kubernetes-engine-Slack-Kanal beitreten, um weiteren Community-Support zu erhalten. - Sie können Probleme oder Feature Requests über die öffentliche Problemverfolgung melden.
Nächste Schritte
- Compute-Klassen standardmäßig auf Pods anwenden
- Arbeitslasttrennung in GKE konfigurieren
- Fehlerbehebung bei Problemen mit dem Hochskalieren des Cluster Autoscaler