Clusterprobleme diagnostizieren

Die Systemdiagnose überwacht regelmäßig den Zustand der Cluster-Steuerungsebene und mehrerer kritischer Komponenten. So können Sie potenzielle Probleme mit Ihren Clustern erkennen und diagnostizieren.

Wenn Sie weitere Unterstützung benötigen, wenden Sie sich an den Cloud Customer Care.

Probleme festgestellt

Die Cluster-Systemdiagnose erkennt die folgenden Probleme in einem Cluster und benachrichtigt Sie darüber:

  • kube-scheduler -Zustand auf Knoten der Steuerungsebene: Wenn kube-scheduler fehlerhaft ist, deutet dies darauf hin, dass der Cluster Probleme hat, Pods Knoten zuzuweisen. Weitere Informationen finden Sie im kube-scheduler-Pod-Log.

  • kube-controller-manager -Zustand auf Knoten der Steuerungsebene: Der kube-controller-manager überwacht verschiedene Controller, z. B. die Controller ReplicaSet, Deployment und Namespace. Wenn der kube-controller-manager als fehlerhaft eingestuft wird, deutet dies darauf hin, dass einer oder mehrere der von ihm verwalteten Controller möglicherweise nicht ordnungsgemäß funktionieren. Um das genaue Problem zu ermitteln, können Sie das kube-controller-manager-Pod-Log prüfen. Dort finden Sie möglicherweise weitere Informationen zu den fehlerhaften Controllern.

  • Kapazität des Root-Volumes: Die Systemdiagnose prüft, ob auf dem Root-Volume jedes Knotens der Steuerungsebene ausreichend Kapazität vorhanden ist. Wenn die verfügbare Kapazität unter 512 MB liegt, werden Sie von der Systemdiagnose auf das potenzielle Risiko hingewiesen, dass der Speicherplatz ausgeht.

Systemdiagnoseereignisse ansehen

Führen Sie den folgenden Befehl aus, um Benachrichtigungen der Systemdiagnose für einen bestimmten Cluster aufzurufen:

gcloud container aws clusters describe CLUSTER_NAME \
    --location GOOGLE_CLOUD_LOCATION

Ersetzen Sie Folgendes:

  • CLUSTER_NAME: der Name des Clusters
  • GOOGLE_CLOUD_LOCATION: der Name des Google Cloud Standorts, der den Cluster verwaltet

Hier sehen Sie einen Auszug der erwarteten Ausgabe:

{
  "name": "some-cluster-name",
  "description": "test-cluster",
  ...
  "errors": [
  {
    "message": "Replica (replica-name)": kube-controller-manager is unhealthy"
  },
  {
    "message": "Replica (replica-name)": not enough disk space on root volume, only 9 MB left"
  }
  ]
  ...
}

In diesem Beispiel weist die Fehlermeldung darauf hin, dass eine kube-controller-manager-Komponente fehlerhaft ist und die Kapazität auf dem Root-Volume eines Knotens der Steuerungsebene knapp wird.

Nächste Schritte

Wenn Sie weitere Unterstützung benötigen, wenden Sie sich an den Cloud Customer Care.