健康狀態檢查功能會定期監控叢集控制層和多個重要元件的健康狀態,協助您偵測及診斷叢集的潛在問題。
如需其他協助,請與 Cloud Customer Care 團隊聯絡。偵測到問題
叢集健康狀態檢查工具會偵測叢集中的下列問題,並發出警示:
控制層節點的
kube-scheduler
健康狀態:如果kube-scheduler
狀態不佳,表示叢集無法將 Pod 指派給節點。如要進一步調查,可以檢查kube-scheduler
Pod 記錄。控制層節點的健康狀態
kube-controller-manager
:kube-controller-manager
會監控各種控制器,例如 ReplicaSet、Deployment 和 Namespace 控制器等。如果kube-controller-manager
判斷為「不正常」,表示其管理的一或多個控制器可能無法正常運作。如要判斷確切問題,可以檢查kube-controller-manager
Pod 記錄,其中可能提供有關故障控制器(或多個控制器) 的更多資訊。根磁碟區容量:健康狀態檢查程式會檢查每個控制平面節點的根磁碟區是否有足夠容量。如果可用容量低於 512 MB,健康狀態檢查工具會發出警示,提醒您磁碟空間可能不足。
查看健康狀態檢查事件
如要查看特定叢集的健康狀態檢查程式發出的快訊,請執行下列指令:
gcloud container aws clusters describe CLUSTER_NAME \
--location GOOGLE_CLOUD_LOCATION
更改下列內容:
CLUSTER_NAME
:叢集名稱GOOGLE_CLOUD_LOCATION
:管理叢集的 Google Cloud位置名稱
以下是預期輸出內容的摘錄:
{ "name": "some-cluster-name", "description": "test-cluster", ... "errors": [ { "message": "Replica (replica-name)": kube-controller-manager is unhealthy" }, { "message": "Replica (replica-name)": not enough disk space on root volume, only 9 MB left" } ] ... }
在本例中,錯誤訊息指出 kube-controller-manager
元件狀況不佳,且控制層節點根磁碟區的容量即將不足。