Resolver problemas do GKE

Nesta página, listamos páginas de solução de problemas comuns que você pode encontrar ao usar o Google Kubernetes Engine (GKE). Esta página é destinada a administradores e arquitetos, especialistas em segurança, especialistas Rede ou especialistas em armazenamento que resolvem problemas de configurações do GKE. Para saber mais sobre as funções do GKE, consulte Tarefas e funções de usuário comuns do GKE.

Se você não tem experiência em solução de problemas no GKE ou quer uma visão geral de alto nível das ferramentas e técnicas fundamentais, comece com Introdução à solução de problemas.

Para diagnosticar e resolver problemas encontrados em várias etapas do trabalho com sua infraestrutura do GKE, consulte as seções a seguir:

Esta página também dá acesso a tópicos mais gerais de solução de problemas:

Para resolver problemas de rede do GKE, consulte Resolver problemas de rede do GKE na documentação de rede do GKE.

Introdução à solução de problemas

Tópico Descrição
Introdução à solução de problemas do GKE Comece a resolver problemas do GKE aprendendo sobre o processo geral e os conceitos fundamentais.
Analisar a integridade e os incidentes do serviço Saiba como verificar a integridade do GKE e dos serviços Google Cloud relacionados para excluir problemas da plataforma.
Avaliar a integridade do cluster e da carga de trabalho no console do Google Cloud Saiba como usar o console Google Cloud para investigar e resolver problemas do GKE.
Investigar o estado de um cluster com kubectl Conheça os comandos e técnicas comuns do kubectl para diagnosticar problemas nos clusters e cargas de trabalho.
Fazer análises históricas com o Cloud Logging Entenda como usar o Cloud Logging de forma eficaz para encontrar as causas principais de problemas no GKE.
Fazer monitoramento proativo com o Cloud Monitoring Use painéis e métricas do Cloud Monitoring para identificar, diagnosticar e resolver problemas do GKE.
Acelere o diagnóstico com o Gemini Cloud Assist Descubra como o Gemini pode ajudar a diagnosticar e resolver problemas do GKE.
Como fazer tudo funcionar em conjunto: exemplo de cenário de solução de problemas Siga um exemplo detalhado de como resolver um cenário comum no GKE.

Configuração do cluster

Tópico Descrição
Criação de cluster Resolver problemas com a criação de clusters.
Clusters do Autopilot Diagnosticar e resolver problemas de clusters do GKE Autopilot, incluindo criação de clusters, exclusão de namespaces, escalonamento e problemas de carga de trabalho.
Ferramenta de linha de comando kubectl Resolver problemas da ferramenta de linha de comando kubectl no GKE, incluindo problemas de autenticação e autorização. Esta página também inclui dicas sobre como resolver problemas do proxy Konnectivity para verificar se ele está fazendo com que os comandos kubectl logs, attach, exec ou port-forward parem de responder.
Pools de nós padrão Resolver problemas em pools de nós padrão do GKE, incluindo problemas com a criação de pool de nós, provisionamento de melhor esforço, metadados de instância corrompidos e migração de cargas de trabalho para novos pools de nós.
Registro de nós Resolver problemas que ocorrem ao adicionar nós ao cluster GKE Standard, como falhas no registro de nós e pré-requisitos ausentes para o registro bem-sucedido de nós.
Ambiente de execução do contêiner Resolver problemas de ambientes de execução de contêineres no GKE, incluindo problemas com containerd e dockershim, e registros particulares.

Escalonamento automático

Tópico Descrição
O escalonador automático de clusters não está reduzindo a escala vertical Diagnosticar e resolver motivos comuns para o cluster não remover nós subutilizados. Saiba como verificar problemas como PodDisruptionBudgets restritivos, pods com armazenamento local ou anotações específicas (por exemplo, "cluster-autoscaler.kubernetes.io/safe-to-evict": "false") que impedem a remoção de nós.
O escalonador automático de clusters não está escalonando verticalmente Saiba por que o escalonador automático de cluster não está adicionando novos nós para atender à demanda. Verifique se há pods não programáveis, se você não atingiu os limites de tamanho do cluster ou do pool de nós e identifique possíveis problemas de cota de recursos ou de disponibilidade regional de VMs.
Escalonamento automático de pod horizontal Resolva problemas com o escalonador automático horizontal de pods que não está escalonando as réplicas de pod do seu aplicativo. Resolva problemas comuns, como objetos HorizontalPodAutoscaler mal configurados ou problemas com o pipeline de métricas.

Armazenamento

Tópico Descrição
Armazenamento Solucione problemas de armazenamento, incluindo questões com discos permanentes regionais, desempenho do disco e expansão de volume.

Segurança do cluster

Tópico Descrição
Authentication Resolva problemas de autenticação no GKE, incluindo problemas com RBAC, federação de identidade da carga de trabalho para GKE e o servidor de metadados do GKE.
Contas de serviço Resolver problemas de contas de serviço, incluindo a restauração da conta de serviço padrão e a ativação da conta de serviço padrão do Compute Engine.
Secrets da camada de aplicativos Resolva problemas que podem ocorrer ao configurar a criptografia de secrets da camada de aplicativo, incluindo atualizações com falha e erros em que não é possível usar uma chave do Cloud KMS ou em que a versão da chave do Cloud KMS foi destruída.

A autoridade de certificação raiz do cluster vai expirar em breve

Tópico Descrição
A autoridade de certificação (CA) raiz vai expirar Se a autoridade certificadora (CA) raiz do cluster expirar em breve, saiba como fazer uma rotação de credenciais para evitar que as operações normais do cluster sejam interrompidas.

Cargas de trabalho

Tópico Descrição
Cargas de trabalho implantadas Resolver problemas de erros em cargas de trabalho executadas em um cluster do GKE, incluindo PodUnschedulable. Leia a seção "PodUnschedulable" para receber orientações sobre erros como MatchNodeSelector e Does not have minimum availability.
Extrações de imagens Resolva problemas de extração de imagens. Saiba o que causa status como ImagePullBackOff e ErrImagePull e como resolver esses status corrigindo problemas comuns, como autenticação e conectividade de rede.
Eventos CrashLoopBackOff Solucione problemas de eventos CrashLoopBackOff no GKE. Diagnosticar problemas como esgotamento de recursos, configurações incorretas de apps e falhas na sondagem de atividade.
Eventos de falta de memória Resolver problemas com eventos de memória insuficiente (OOM) do Kubernetes. Identificar causas, distinguir tipos de eventos e aplicar soluções eficazes para encerramentos por falta de memória (OOM) no nível do contêiner e do nó.
Cargas de trabalho do Arm Resolver problemas com cargas de trabalho do Arm, incluindo falhas nos pods em nós do Arm.
TPUs Resolver problemas com TPUs, incluindo problemas com cota, provisionamento automático de nós, configuração e programação de carga de trabalho.
GPUs Resolver problemas de GPUs, incluindo problemas com a instalação de drivers de GPU, erros de plug-in de dispositivo e imagens de contêiner.

Gerenciamento de clusters

Tópico Descrição
Upgrades de cluster Resolva problemas de upgrade de cluster e nó do GKE, incluindo upgrades longos ou incompletos, upgrades automáticos inesperados, falhas e problemas pós-upgrade.
Webhooks Entenda como solucionar problemas e garantir a estabilidade do plano de controle do cluster ao usar webhooks de admissão.
Namespace travado no estado Terminating Para resolver problemas com namespaces travados no estado Terminating, identifique e remova os componentes não íntegros que estão impedindo a exclusão.
Operações simultâneas Saiba como identificar e resolver esses erros aguardando a conclusão das operações.

Monitoramento

Tópico Descrição
Métricas do sistema Resolva problemas com métricas do sistema que não aparecem no Cloud Monitoring.
Painéis do Monitoring Resolva problemas em painéis de monitoramento, incluindo problemas com a ativação do monitoramento, recursos do Kubernetes ausentes e permissões.
Logging Resolva problemas de geração de registros, incluindo problemas com a ativação, registros ausentes e cotas.

Erros 4xx

Tópico Descrição
Erros 4xx Solucione alguns dos erros 400, 401, 403 e 404 que você pode encontrar ao usar o GKE. Esta página também inclui informações sobre como resolver erros de permissões de edição ausentes na conta.

Problemas conhecidos

Tópico Descrição
Problemas conhecidos Identifique e resolva problemas conhecidos que possam afetar seu uso do GKE.

A seguir

  • Se você não encontrar uma solução para seu problema na documentação, consulte Receber suporte para mais ajuda, incluindo conselhos sobre os seguintes tópicos: