本页面介绍了如何排查在 GDC 中预配用户集群时可能出现的问题。
无法调度 pod
如需获得在用户集群中排查 pod 调度问题所需的权限,请让组织 IAM 管理员向您授予用户集群管理员角色。
如需排查用户集群中无法调度的 pod,请完成以下步骤:
提取 Grafana 网址:
echo https://console.ORGANIZATION_NAME.GDC_URL/platform-obs/grafana执行以下变量替换操作:
ORGANIZATION_NAME:组织的名称。GDC_URL:您用于访问 GDC 实例的域名。
在浏览器中前往 Grafana 网址。
在 Grafana 首页上打开 KUB-R0101 - 集群无法部署更多 Pod 信息中心。
查看无法调度的 pod 数量图表,了解哪个用户集群包含一个或多个无法调度的 pod。
在无法调度的 Pod 数量图表中,将指针悬停在数据点上,即可找到无法调度的 Pod 的名称和命名空间。
将 pod 的名称和命名空间导出为变量:
export POD_NAME=POD_NAME export NAMESPACE=NAMESPACE运行以下命令以输出有关受影响 pod 的信息:
kubectl --kubeconfig USER_CLUSTER_KUBECONFIG \ describe pod -n "${NAMESPACE}" -p "${POD_NAME}"如果您看到以下警告,则表示您的 pod 内存不足:
Warning FailedScheduling 40s (x98 over 2h) default-scheduler 0/1 nodes are available: 1 Insufficient memory (1).请继续执行下一步,详细了解如何缓解此问题。
增加工作器节点池中可用的 pod 数量。如需了解如何增加用户集群的节点池大小,请参阅调整节点池的大小部分。
扩容工作器节点池后,请验证 Grafana 中的不可调度的 Pod 数量图表是否为零,以确认您已解决问题。
工作负载性能下降
如需获得排查用户集群中性能下降问题所需的权限,请让组织 IAM 管理员为您授予用户集群管理员角色。
如需排查用户集群中工作负载的性能下降问题,请完成以下步骤:
提取 Grafana 网址:
echo https://console.ORGANIZATION_NAME.GDC_URL/platform-obs/grafana执行以下变量替换操作:
ORGANIZATION_NAME:组织的名称。GDC_URL:您用于访问 GDC 实例的域名。
在浏览器中前往 Grafana 网址。
在 Grafana 首页上打开 KUB-R0104 - 集群中工作负载的性能下降信息中心。
以下三个图表显示了用户集群的 CPU、内存或 API 延迟时间是否过长:

用户集群的 CPU、内存或 API 服务器延迟突然增加的原因有很多。首先,根据问题从 Grafana 信息中心找到受影响的用户集群。
如果问题与用户集群的 CPU 或内存利用率过高有关,请在同一信息中心内查看节点 CPU 利用率和节点内存利用率,以找出受影响的节点。
如果受影响的节点是工作器节点,请增加工作器节点池中可用的 pod 数量。如果某个节点的名称中不含关键字
admin,则该节点为工作器节点。如需了解如何增加用户集群的节点池大小,请参阅调整节点池的大小部分。