Solución de problemas de clústeres de Kubernetes

En esta página se describe cómo solucionar los problemas que pueden surgir al aprovisionar un clúster de usuarios en GDC.

No se pueden programar pods

Para obtener los permisos necesarios para solucionar problemas con la programación de pods en un clúster de usuarios, pide al administrador de gestión de identidades y accesos de tu organización que te conceda el rol de administrador del clúster de usuarios.

Para solucionar problemas con pods que no se pueden programar en un clúster de usuario, sigue estos pasos:

  1. Obtén la URL de Grafana:

    echo https://console.ORGANIZATION_NAME.GDC_URL/platform-obs/grafana
    

    Sustituye las siguientes variables:

    • ORGANIZATION_NAME: el nombre de la organización.
    • GDC_URL: el nombre de dominio que usas para acceder a tu instancia de GDC.
  2. Vaya a la URL de Grafana en un navegador.

  3. Abre el panel de control KUB-R0101 - Cluster cannot deploy more pods (KUB-R0101 - El clúster no puede desplegar más pods) en la página principal de Grafana.

  4. Consulta el gráfico Número de pods que no se pueden programar para ver qué clúster de usuarios tiene uno o varios pods que no se pueden programar.

  5. En el gráfico Número de pods no programables, mantén el puntero sobre los puntos de datos para ver el nombre y el espacio de nombres del pod no programable.

  6. Exporta el nombre y el espacio de nombres del pod como variables:

    export POD_NAME=POD_NAME
    export NAMESPACE=NAMESPACE
    
  7. Ejecuta el siguiente comando para imprimir información sobre el pod afectado:

    kubectl --kubeconfig USER_CLUSTER_KUBECONFIG \
        describe pod -n "${NAMESPACE}" -p "${POD_NAME}"
    

    Si ves la siguiente advertencia, significa que tu pod no tiene suficiente memoria:

    Warning  FailedScheduling  40s (x98 over 2h)  default-scheduler  0/1 nodes are available: 1 Insufficient memory (1).
    

    Ve al siguiente paso para obtener información sobre cómo mitigar este problema.

  8. Aumenta el número de pods disponibles en tu grupo de nodos de trabajador. Consulta la sección Cambiar el tamaño de los grupos de nodos para obtener información sobre cómo aumentar el tamaño de los grupos de nodos de un clúster de usuarios.

  9. Después de aumentar la escala del grupo de nodos de trabajo, comprueba que has solucionado el problema verificando que el gráfico Número de pods no programables de Grafana es cero.

Rendimiento degradado de las cargas de trabajo

Para obtener los permisos necesarios para solucionar problemas de rendimiento degradado en un clúster de usuarios, pide a tu administrador de gestión de identidades y accesos de la organización que te conceda el rol de administrador del clúster de usuarios.

Para solucionar problemas de rendimiento de las cargas de trabajo en un clúster de usuario, sigue estos pasos:

  1. Obtén la URL de Grafana:

    echo https://console.ORGANIZATION_NAME.GDC_URL/platform-obs/grafana
    

    Sustituye las siguientes variables:

    • ORGANIZATION_NAME: el nombre de la organización.
    • GDC_URL: el nombre de dominio que usas para acceder a tu instancia de GDC.
  2. Vaya a la URL de Grafana en un navegador.

  3. Abre el panel de control KUB-R0104 - Rendimiento degradado de las cargas de trabajo de un clúster en la página principal de Grafana.

  4. Hay tres gráficos que muestran si las latencias de la CPU, la memoria o la API son demasiado altas para un clúster de usuarios:

    Cargas de trabajo de clústeres de usuarios degradadas en Grafana

    Hay muchos motivos por los que la latencia de la CPU, la memoria o el servidor de APIs de un clúster de usuarios puede aumentar de repente. Primero, busca el clúster de usuarios afectados en el panel de control de Grafana en función del problema.

    Si el problema está relacionado con un uso elevado de la CPU o la memoria de un clúster de usuario, consulta las métricas Tasa de utilización de la CPU del nodo y Tasa de utilización de la memoria del nodo en el mismo panel de control para saber qué nodos se ven afectados.

  5. Si los nodos afectados son nodos de trabajador, aumenta el número de pods disponibles en tu grupo de nodos de trabajador. Si un nodo no tiene la palabra clave admin en su nombre, es un nodo de trabajo. Consulta la sección Cambiar el tamaño de los grupos de nodos para obtener información sobre cómo aumentar el tamaño de los grupos de nodos de un clúster de usuarios.