Kubernetes 集群问题排查

本页面介绍了如何排查在 GDC 中预配用户集群时可能出现的问题。

无法调度 pod

如需获得在用户集群中排查 pod 调度问题所需的权限,请让组织 IAM 管理员向您授予用户集群管理员角色。

如需排查用户集群中无法调度的 pod,请完成以下步骤:

  1. 提取 Grafana 网址:

    echo https://console.ORGANIZATION_NAME.GDC_URL/platform-obs/grafana
    

    执行以下变量替换操作:

    • ORGANIZATION_NAME:组织的名称。
    • GDC_URL:您用于访问 GDC 实例的域名。
  2. 在浏览器中前往 Grafana 网址。

  3. 在 Grafana 首页上打开 KUB-R0101 - 集群无法部署更多 Pod 信息中心。

  4. 查看无法调度的 pod 数量图表,了解哪个用户集群包含一个或多个无法调度的 pod。

  5. 无法调度的 Pod 数量图表中,将指针悬停在数据点上,即可找到无法调度的 Pod 的名称和命名空间。

  6. 将 pod 的名称和命名空间导出为变量:

    export POD_NAME=POD_NAME
    export NAMESPACE=NAMESPACE
    
  7. 运行以下命令以输出有关受影响 pod 的信息:

    kubectl --kubeconfig USER_CLUSTER_KUBECONFIG \
        describe pod -n "${NAMESPACE}" -p "${POD_NAME}"
    

    如果您看到以下警告,则表示您的 pod 内存不足:

    Warning  FailedScheduling  40s (x98 over 2h)  default-scheduler  0/1 nodes are available: 1 Insufficient memory (1).
    

    请继续执行下一步,详细了解如何缓解此问题。

  8. 增加工作器节点池中可用的 pod 数量。如需了解如何增加用户集群的节点池大小,请参阅调整节点池的大小部分。

  9. 扩容工作器节点池后,请验证 Grafana 中的不可调度的 Pod 数量图表是否为零,以确认您已解决问题。

工作负载性能下降

如需获得排查用户集群中性能下降问题所需的权限,请让组织 IAM 管理员为您授予用户集群管理员角色。

如需排查用户集群中工作负载的性能下降问题,请完成以下步骤:

  1. 提取 Grafana 网址:

    echo https://console.ORGANIZATION_NAME.GDC_URL/platform-obs/grafana
    

    执行以下变量替换操作:

    • ORGANIZATION_NAME:组织的名称。
    • GDC_URL:您用于访问 GDC 实例的域名。
  2. 在浏览器中前往 Grafana 网址。

  3. 在 Grafana 首页上打开 KUB-R0104 - 集群中工作负载的性能下降信息中心。

  4. 以下三个图表显示了用户集群的 CPU、内存或 API 延迟时间是否过长:

    Grafana 中用户集群工作负载的降级

    用户集群的 CPU、内存或 API 服务器延迟突然增加的原因有很多。首先,根据问题从 Grafana 信息中心找到受影响的用户集群。

    如果问题与用户集群的 CPU 或内存利用率过高有关,请在同一信息中心内查看节点 CPU 利用率节点内存利用率,以找出受影响的节点。

  5. 如果受影响的节点是工作器节点,请增加工作器节点池中可用的 pod 数量。如果某个节点的名称中不含关键字 admin,则该节点为工作器节点。如需了解如何增加用户集群的节点池大小,请参阅调整节点池的大小部分。