排解 Kubernetes 叢集問題

本頁說明如何排解在 GDC 中佈建使用者叢集時可能發生的問題。

無法排定 Pod 時間

如要取得排解使用者叢集 Pod 排程問題所需的權限,請要求機構 IAM 管理員授予您使用者叢集管理員角色。

如要排解使用者叢集中無法排程的 Pod 問題,請完成下列步驟:

  1. 擷取 Grafana 網址:

    echo https://console.ORGANIZATION_NAME.GDC_URL/platform-obs/grafana
    

    請替換下列變數:

    • ORGANIZATION_NAME:機構名稱。
    • GDC_URL:您用來存取 GDC 執行個體的網域名稱。
  2. 在瀏覽器中前往 Grafana 網址。

  3. 在 Grafana 首頁開啟「KUB-R0101 - Cluster cannot deploy more pods」(KUB-R0101 - 叢集無法部署更多 Pod) 資訊主頁。

  4. 查看「無法排程的 Pod 數量」圖表,瞭解哪些使用者叢集含有一或多個無法排程的 Pod。

  5. 在「無法排程的 Pod 數量」圖表中,將指標懸停在資料點上,即可查看無法排程的 Pod 名稱和命名空間。

  6. 將 Pod 的名稱和命名空間匯出為變數:

    export POD_NAME=POD_NAME
    export NAMESPACE=NAMESPACE
    
  7. 執行下列指令,列印受影響 Pod 的相關資訊:

    kubectl --kubeconfig USER_CLUSTER_KUBECONFIG \
        describe pod -n "${NAMESPACE}" -p "${POD_NAME}"
    

    如果看到下列警告訊息,表示 Pod 的記憶體不足:

    Warning  FailedScheduling  40s (x98 over 2h)  default-scheduler  0/1 nodes are available: 1 Insufficient memory (1).
    

    請參閱下一個步驟,瞭解如何解決這個問題。

  8. 增加工作站節點集區中可用的 Pod 數量。如要瞭解如何增加使用者叢集的節點集區大小,請參閱「調整節點集區大小」一節。

  9. 擴充工作站節點集區後,請確認 Grafana 中的「無法排程的 Pod 數量」圖表顯示為零,驗證問題是否已修正。

工作負載效能降低

如要取得所需權限,以便排解使用者叢集效能降低的問題,請要求機構 IAM 管理員授予您使用者叢集管理員角色。

如要排解使用者叢集中工作負載效能下降的問題,請完成下列步驟:

  1. 擷取 Grafana 網址:

    echo https://console.ORGANIZATION_NAME.GDC_URL/platform-obs/grafana
    

    請替換下列變數:

    • ORGANIZATION_NAME:機構名稱。
    • GDC_URL:您用來存取 GDC 執行個體的網域名稱。
  2. 在瀏覽器中前往 Grafana 網址。

  3. 在 Grafana 首頁開啟「KUB-R0104 - Performance degraded for workloads in a cluster」(叢集中工作負載的效能降低) 資訊主頁。

  4. 有三張圖表會顯示使用者叢集的 CPU、記憶體或 API 延遲是否過高:

    Grafana 中使用者叢集工作負載的狀態為「已降級」

    使用者叢集的 CPU、記憶體或 API 伺服器延遲時間突然增加,原因有很多。首先,請視問題而定,從 Grafana 資訊主頁找出受影響的使用者叢集。

    如果問題與使用者叢集的 CPU 或記憶體使用率偏高有關,請在同一個資訊主頁中查看「節點 CPU 使用率」和「節點記憶體使用率」,找出受影響的節點。

  5. 如果受影響的節點是工作站節點,請增加工作站節點集區中可用的 Pod 數量。如果節點名稱中沒有關鍵字 admin,就是工作節點。如要瞭解如何增加使用者叢集的節點集區大小,請參閱「調整節點集區大小」一節。