Cuando necesitas verificar rápidamente el estado de tus clústeres y cargas de trabajo de Google Kubernetes Engine (GKE), puede ser difícil saber por dónde empezar. Visualizar el estado de tus clústeres y cargas de trabajo en la Google Cloud consola de Cloud te ayuda a evaluar rápidamente el estado de tu entorno. El estado del clúster se refiere al estado de la infraestructura subyacente de GKE, como los nodos y las redes, mientras que el estado de la carga de trabajo se refiere al estado y el rendimiento de tus apps que se ejecutan en el clúster.
Usa esta página para aprender a navegar por las páginas de clústeres y cargas de trabajo de Kubernetes para obtener una descripción general, identificar posibles problemas (como nodos con presión de recursos o pods con fallas) y explorar recursos específicos para obtener más detalles.
Esta información es importante para los administradores y operadores de plataformas que son responsables de mantener la estabilidad del clúster y necesitan realizar evaluaciones de estado y verificaciones de recursos rápidas. También es esencial para los desarrolladores de aplicaciones que necesitan comprender el estado de ejecución de sus implementaciones y analizar las fallas. Para obtener más información sobre los roles comunes y las tareas de ejemplo a las que hacemos referencia en el contenido de Google Cloud , consulta Roles y tareas comunes del usuario de GKE.
Para proporcionar una imagen completa del estado de tu app, la Google Cloud consola también te brinda acceso a potentes herramientas de registro y supervisión, lo que te permite investigar la causa raíz de las fallas anteriores y evitar de forma proactiva las futuras. Para obtener más información sobre estas herramientas, consulta Realiza análisis históricos con Cloud Logging y Realiza una supervisión proactiva con Cloud Monitoring.
Busca problemas del clúster
La página Clústeres de Kubernetes te proporciona una descripción general del estado de tus clústeres. Para identificar problemas con cualquiera de tus clústeres, comienza en esta página.
Para comenzar, en la Google Cloud consola de Cloud, ve a la página **Clústeres de Kubernetes**.
A continuación, se incluyen algunos ejemplos de cómo puedes usar esta página para solucionar problemas:
- Para obtener asesoramiento sobre cómo mejorar el estado de tu clúster, tu estrategia de actualización y la optimización de costos, haz clic en Ver recomendaciones.
- Para identificar clústeres en mal estado, revisa la columna Estado. Cualquier clúster que no tenga una marca de verificación verde necesita atención.
- Para ver posibles problemas, revisa la columna Notificaciones. Haz clic en cualquier mensaje de notificación para obtener más información.
Investiga un clúster específico
Después de descubrir un problema con un clúster, explora la página Detalles del clúster para obtener información detallada que te ayude a solucionar problemas del clúster y comprender su configuración.
Para ir a la página Detalles de un clúster, haz lo siguiente:
Ve a la página Clústeres de Kubernetes.
Revisa la columna Nombre y haz clic en el nombre del clúster que deseas investigar.
A continuación, se incluyen algunos ejemplos de cómo usar la página Detalles del clúster para solucionar problemas del clúster:
Para realizar verificaciones de estado generales, prueba las siguientes opciones:
Para ver paneles a nivel del clúster, ve a la pestaña Observabilidad. De forma predeterminada, GKE habilita Cloud Monitoring cuando creas un clúster. Cuando Cloud Monitoring está habilitado, GKE configura automáticamente los paneles en esta página. Estas son algunas de las vistas que pueden resultarte más útiles para solucionar problemas:
- Descripción general: Consulta un resumen general del estado, el uso de recursos y los eventos clave de tu clúster. Este panel te ayuda a evaluar rápidamente el estado general de tu clúster y a identificar posibles problemas.
- Métricas de tráfico: Consulta las métricas de redes basadas en nodos para obtener estadísticas sobre el tráfico entre tus cargas de trabajo de Kubernetes.
- Estado de la carga de trabajo: Consulta el estado de las implementaciones, los pods y los contenedores. Identifica instancias con fallas o en mal estado, y detecta restricciones de recursos.
Plano de control: Consulta el estado y el rendimiento del plano de control. Este panel te permite supervisar las métricas clave de componentes como
kube-apiserveryetcd, identificar cuellos de botella en el rendimiento y detectar fallas de componentes.
Para ver los errores recientes de la app, ve a la pestaña Errores de la app. La información de esta pestaña puede ayudarte a priorizar y resolver errores, ya que muestra la cantidad de ocurrencias, cuándo apareció un error por primera vez y cuándo ocurrió por última vez.
Para investigar un error más a fondo, haz clic en el mensaje de error para ver un informe de errores detallado, incluidos los vínculos a los registros pertinentes.
Si solucionas problemas después de una actualización o un cambio reciente, consulta la sección Conceptos básicos del clúster en la pestaña Detalles del clúster. Confirma que la versión que aparece en el campo Versión sea la que esperas. Para obtener más información, haz clic en Mostrar historial de actualizaciones en la sección Actualizaciones.
Si usas un clúster estándar y tus pods están atascados en un estado
Pendingo sospechas que los nodos están sobrecargados, consulta la pestaña Nodos. La pestaña Nodos no está disponible para los clústeres de Autopilot porque GKE administra los nodos por ti.- En la sección Grupos de nodos, verifica que el ajuste de escala automático esté configurado correctamente y que el tipo de máquina sea adecuado para tus cargas de trabajo.
- En la sección Nodos, busca cualquier nodo con un estado que no sea
Ready. Un estadoNotReadyindica un problema con el nodo en sí, como presión de recursos o un problema con kubelet (kubelet es el agente que se ejecuta en cada nodo para administrar contenedores).
Busca problemas de la carga de trabajo
Cuando sospeches que hay un problema con una app específica, como una Deployment fallida, ve a la página Cargas de trabajo en la Google Cloud consola de Cloud. Esta página proporciona una vista centralizada de todas las apps que se ejecutan dentro de tus clústeres.
Para comenzar, en la Google Cloud consola de Cloud, ve a la página Cargas de trabajo.
A continuación, se incluyen algunos ejemplos de cómo puedes usar esta página para solucionar problemas:
- Para identificar cargas de trabajo en mal estado, revisa la columna Estado. Cualquier carga de trabajo que no tenga una marca de verificación verde necesita atención.
- Si una app no responde, revisa la columna Pods. Por ejemplo, un estado como 1/3 significa que solo se ejecuta una de las tres réplicas de la app, lo que indica un problema.
Investiga una carga de trabajo específica
Después de identificar una carga de trabajo problemática en la descripción general, explora la página Detalles de la carga de trabajo para comenzar a aislar la causa raíz.
Para ir a la página Detalles de una carga de trabajo, haz lo siguiente:
Ve a la página Cargas de trabajo.
Consulta la columna Nombre y haz clic en el nombre de la carga de trabajo que deseas investigar.
A continuación, se incluyen algunos ejemplos de cómo usar la página Detalles de la carga de trabajo para solucionar problemas de tus cargas de trabajo:
Para verificar la configuración de la carga de trabajo, usa las pestañas Descripción general y Detalles de la carga de trabajo. Puedes usar esta información para verificar eventos, como si se implementó la etiqueta de imagen de contenedor correcta, o verificar las solicitudes y los límites de recursos de la carga de trabajo.
Para encontrar el nombre de un pod específico que falla, ve a la sección Pods administrados. Es posible que necesites esta información para los comandos
kubectl. En esta sección, se enumeran todos los pods controlados por la carga de trabajo, junto con sus estados.Para ver un historial de los cambios recientes en una carga de trabajo, ve a la pestaña Historial de revisiones. Si notas problemas de rendimiento después de una Deployment nueva, usa esta sección para identificar qué revisión está activa. Luego, puedes comparar las configuraciones de la revisión actual con las anteriores para identificar la fuente del problema. Si esta pestaña no está visible, la carga de trabajo es un tipo que no usa revisiones o aún no tuvo ninguna actualización.
Si una Deployment parece haber fallado, ve a la pestaña Eventos. Esta página suele ser la fuente de información más valiosa porque muestra eventos a nivel de Kubernetes.
Para consultar los registros de tu app, haz clic en la pestaña Registros. Esta página te ayuda a comprender lo que sucede dentro de tu clúster. Busca aquí mensajes de error y seguimientos de pila que puedan ayudarte a diagnosticar problemas.
Para confirmar exactamente lo que se implementó, consulta la pestaña YAML. En esta página, se muestra el manifiesto YAML activo de la carga de trabajo tal como existe en el clúster. Esta información es útil para encontrar cualquier discrepancia en tus manifiestos controlados por la fuente. Si ves el manifiesto YAML de un solo pod, esta pestaña también te muestra el estado del pod, lo que proporciona estadísticas sobre las fallas a nivel del pod.
¿Qué sigue?
Lee Investiga el estado de un clúster con
kubectl(la siguiente página de esta serie).Consulta estos conceptos aplicados en la situación de ejemplo de solución de problemas.
Para obtener asesoramiento sobre cómo resolver problemas específicos, revisa las guías de solución de problemas de GKE.
Si no encuentras una solución a tu problema en la documentación, consulta Obtener asistencia para obtener más ayuda, como asesoramiento en los siguientes temas:
- Comunicarse con Atención al cliente de Cloud para abrir un caso de asistencia.
- Hacer preguntas en StackOverflow para obtener asistencia de
la comunidad y usar la etiqueta
google-kubernetes-enginepara buscar problemas similares. También puedes unirte al#kubernetes-enginecanal de Slack para obtener más Asistencia de la comunidad. - Abrir errores o solicitudes de funciones con la herramienta de seguimiento de errores pública.