Diagnostique problemas de clusters

A funcionalidade de verificação de funcionamento monitoriza regularmente o funcionamento do plano de controlo do cluster e de vários componentes críticos, e ajuda a detetar e diagnosticar potenciais problemas com os seus clusters.

Se precisar de assistência adicional, contacte o apoio ao cliente do Google Cloud.

Problemas detetados

A verificação de funcionamento do cluster deteta e envia-lhe alertas sobre os seguintes problemas num cluster:

  • kube-scheduler estado de funcionamento nos nós do plano de controlo: se o kube-scheduler não estiver em bom estado, isto sugere que o cluster está a ter problemas em atribuir pods a nós. Para investigar mais aprofundadamente, pode examinar o registo do kube-scheduler pod.

  • kube-controller-manager estado de funcionamento nos nós do painel de controlo: o kube-controller-manager monitoriza vários controladores, como os controladores ReplicaSet, Deployment e Namespace, entre outros. Se o kube-controller-manager for considerado não saudável, isto sugere que um ou mais dos controladores que gere podem não estar a funcionar corretamente. Para determinar o problema preciso, pode examinar o registo do pod, que pode fornecer mais informações sobre os controladores com mau funcionamento.kube-controller-manager

  • Capacidade do volume raiz: a verificação de funcionamento verifica se existe capacidade suficiente no volume raiz de cada nó do plano de controlo. Se a capacidade disponível for inferior a 512 MB, o verificador de estado de funcionamento alerta para o potencial risco de ficar sem espaço em disco.

Veja eventos de verificação de estado

Para ver alertas do verificador de estado de funcionamento de um cluster específico, execute o seguinte comando:

gcloud container aws clusters describe CLUSTER_NAME \
    --location GOOGLE_CLOUD_LOCATION

Substitua o seguinte:

  • CLUSTER_NAME: o nome do cluster
  • GOOGLE_CLOUD_LOCATION: o nome da Google Cloud localização que gere o cluster

Segue-se um excerto do tipo de resultado que pode esperar:

{
  "name": "some-cluster-name",
  "description": "test-cluster",
  ...
  "errors": [
  {
    "message": "Replica (replica-name)": kube-controller-manager is unhealthy"
  },
  {
    "message": "Replica (replica-name)": not enough disk space on root volume, only 9 MB left"
  }
  ]
  ...
}

Neste exemplo, a mensagem de erro indica que um kube-controller-managercomponente não está em bom estado e que a capacidade no volume raiz de um nó do plano de controlo está a ficar baixa.

O que se segue?

Se precisar de assistência adicional, contacte o apoio ao cliente do Google Cloud.