En este documento, se enumeran los documentos de solución de problemas para los problemas comunes que puedes encontrar cuando usas Google Kubernetes Engine (GKE). Ya sea que estés diagnosticando errores de cargas de trabajo, como ImagePullBackOff y CrashLoopBackOff, depurando el comportamiento del ajuste de escala automático del clúster, resolviendo problemas de PersistentVolume o solucionando problemas de registro de nodos, los documentos que se enumeran aquí pueden ayudarte.
Este documento está dirigido a administradores y arquitectos, especialistas en seguridad, especialistas en redes o especialistas en almacenamiento que solucionan problemas de configuraciones de GKE. Para obtener más información sobre los roles de GKE, consulta Roles y tareas comunes de los usuarios de GKE.
Diagnosticar y solucionar problemas de los clústeres de Autopilot de GKE, incluidos los problemas relacionados con la creación de clústeres, la eliminación de espacios de nombres, el escalamiento y las cargas de trabajo
Soluciona problemas de la herramienta de línea de comandos de kubectl en GKE, incluidos los problemas de autenticación y autorización.
En esta página, también se incluye asesoramiento para solucionar problemas del proxy de Konnectivity y verificar si está provocando que los comandos kubectl logs, attach, exec o port-forward dejen de responder.
Soluciona problemas de grupos de nodos de GKE Standard, incluidos los problemas relacionados con la creación de grupos de nodos, el aprovisionamiento de mejor esfuerzo, los metadatos de instancias dañados y la migración de cargas de trabajo a grupos de nodos nuevos.
Aprende a diagnosticar y resolver el estado NotReady
del nodo en GKE. Para ello, soluciona problemas habituales, como la escasez de recursos, los problemas de red y las fallas de componentes.
Soluciona problemas que ocurren cuando agregas nodos a tu
clúster de GKE Standard, como fallas en el registro de nodos
y requisitos previos faltantes para el registro correcto de nodos.
Diagnostica y resuelve los motivos comunes por los que tu clúster no quita los nodos subutilizados. Obtén información para verificar si hay problemas, como PodDisruptionBudgets restrictivos, Pods con almacenamiento local o anotaciones específicas (por ejemplo, "cluster-autoscaler.kubernetes.io/safe-to-evict": "false") que impiden el desalojo de nodos.
Obtén información sobre por qué el escalador automático de clústeres no agrega nodos nuevos para satisfacer la demanda.
Comprueba si hay Pods que no se pueden programar, verifica que no hayas alcanzado los límites de tamaño del clúster o del grupo de nodos, y, luego, identifica posibles problemas de cuota de recursos o de disponibilidad regional de VM.
Soluciona problemas relacionados con el Horizontal Pod Autoscaler que no escala las réplicas de Pod de tu aplicación. Resuelve problemas habituales, como objetos HorizontalPodAutoscaler mal configurados o problemas con la canalización de métricas.
Soluciona problemas de almacenamiento, incluidos los relacionados con discos persistentes regionales, el rendimiento del disco y la expansión del volumen.
Soluciona problemas relacionados con las cuentas de servicio, como restablecer la cuenta de servicio predeterminada y habilitar la cuenta de servicio predeterminada de Compute Engine.
Si la autoridad certificadora (CA) raíz de tu clúster vencerá pronto, obtén información para realizar una rotación de credenciales y evitar que se interrumpan las operaciones normales del clúster.
Soluciona problemas de extracción de imágenes. Obtén información sobre las causas de los estados como
ImagePullBackOff y ErrImagePull
y cómo resolverlos corrigiendo problemas comunes, como
la autenticación y la conectividad de red.
Soluciona problemas relacionados con eventos de CrashLoopBackOff en GKE. Diagnostica problemas como el agotamiento de recursos, la configuración incorrecta de la app y las fallas del sondeo de funcionamiento.
Soluciona problemas relacionados con eventos de memoria insuficiente (OOM) de Kubernetes. Identifica las causas, distingue los tipos de eventos y aplica soluciones eficaces para los cierres por OOM a nivel del contenedor y del nodo.
Soluciona problemas relacionados con las TPU, incluidos los problemas de cuota, el aprovisionamiento automático de nodos, la configuración de cargas de trabajo y la programación.
Soluciona problemas relacionados con las GPUs, incluidos los problemas con la instalación de controladores de GPU, los errores de complementos de dispositivos y las imágenes de contenedores.
Soluciona problemas y resuelve inconvenientes relacionados con las actualizaciones de clústeres y nodos de GKE, incluidas las actualizaciones largas o incompletas, las actualizaciones automáticas inesperadas, las fallas y los problemas posteriores a la actualización.
Soluciona problemas relacionados con espacios de nombres atrapados en el estado
Terminating. Para ello, identifica y quita los componentes
en mal estado que bloquean la eliminación.
Soluciona problemas de operaciones simultáneas. Para ello, aprende a identificar estos errores y a resolverlos esperando a que se completen las operaciones.
Soluciona problemas de los paneles de supervisión, incluidos los problemas relacionados con la habilitación de la supervisión, la falta de recursos de Kubernetes y los permisos.
Soluciona problemas relacionados con la falta de registros de GKE. Obtén información para verificar el estado de la API, la configuración del clúster, los permisos, las cuotas, los filtros y el comportamiento de la aplicación.
Identifica y resuelve los problemas conocidos que podrían afectar tu uso de GKE.
¿Qué sigue?
Si no encuentras una solución a tu problema en la documentación, consulta
Obtener asistencia para obtener más ayuda,
como asesoramiento en los siguientes temas:
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-12-05 (UTC)"],[],[]]