本頁說明如何排解在 GDC 中佈建使用者叢集時可能發生的問題。
無法排定 Pod 時間
如要取得排解使用者叢集 Pod 排程問題所需的權限,請要求機構 IAM 管理員授予您使用者叢集管理員角色。
如要排解使用者叢集中無法排程的 Pod 問題,請完成下列步驟:
擷取 Grafana 網址:
echo https://console.ORGANIZATION_NAME.GDC_URL/platform-obs/grafana請替換下列變數:
ORGANIZATION_NAME:機構名稱。GDC_URL:您用來存取 GDC 執行個體的網域名稱。
在瀏覽器中前往 Grafana 網址。
在 Grafana 首頁開啟「KUB-R0101 - Cluster cannot deploy more pods」(KUB-R0101 - 叢集無法部署更多 Pod) 資訊主頁。
查看「無法排程的 Pod 數量」圖表,瞭解哪些使用者叢集含有一或多個無法排程的 Pod。
在「無法排程的 Pod 數量」圖表中,將指標懸停在資料點上,即可查看無法排程的 Pod 名稱和命名空間。
將 Pod 的名稱和命名空間匯出為變數:
export POD_NAME=POD_NAME export NAMESPACE=NAMESPACE執行下列指令,列印受影響 Pod 的相關資訊:
kubectl --kubeconfig USER_CLUSTER_KUBECONFIG \ describe pod -n "${NAMESPACE}" -p "${POD_NAME}"如果看到下列警告訊息,表示 Pod 的記憶體不足:
Warning FailedScheduling 40s (x98 over 2h) default-scheduler 0/1 nodes are available: 1 Insufficient memory (1).請參閱下一個步驟,瞭解如何解決這個問題。
增加工作站節點集區中可用的 Pod 數量。如要瞭解如何增加使用者叢集的節點集區大小,請參閱「調整節點集區大小」一節。
擴充工作站節點集區後,請確認 Grafana 中的「無法排程的 Pod 數量」圖表顯示為零,驗證問題是否已修正。
工作負載效能降低
如要取得所需權限,以便排解使用者叢集效能降低的問題,請要求機構 IAM 管理員授予您使用者叢集管理員角色。
如要排解使用者叢集中工作負載效能下降的問題,請完成下列步驟:
擷取 Grafana 網址:
echo https://console.ORGANIZATION_NAME.GDC_URL/platform-obs/grafana請替換下列變數:
ORGANIZATION_NAME:機構名稱。GDC_URL:您用來存取 GDC 執行個體的網域名稱。
在瀏覽器中前往 Grafana 網址。
在 Grafana 首頁開啟「KUB-R0104 - Performance degraded for workloads in a cluster」(叢集中工作負載的效能降低) 資訊主頁。
有三張圖表會顯示使用者叢集的 CPU、記憶體或 API 延遲是否過高:

使用者叢集的 CPU、記憶體或 API 伺服器延遲時間突然增加,原因有很多。首先,請視問題而定,從 Grafana 資訊主頁找出受影響的使用者叢集。
如果問題與使用者叢集的 CPU 或記憶體使用率偏高有關,請在同一個資訊主頁中查看「節點 CPU 使用率」和「節點記憶體使用率」,找出受影響的節點。
如果受影響的節點是工作站節點,請增加工作站節點集區中可用的 Pod 數量。如果節點名稱中沒有關鍵字
admin,就是工作節點。如要瞭解如何增加使用者叢集的節點集區大小,請參閱「調整節點集區大小」一節。