A funcionalidade de verificação de funcionamento monitoriza regularmente o funcionamento do plano de controlo do cluster e de vários componentes críticos, e ajuda a detetar e diagnosticar potenciais problemas com os seus clusters.
Se precisar de assistência adicional, contacte o apoio ao cliente do Google Cloud.Problemas detetados
A verificação de funcionamento do cluster deteta e envia-lhe alertas sobre os seguintes problemas num cluster:
kube-scheduler
estado de funcionamento nos nós do plano de controlo: se okube-scheduler
não estiver em bom estado, isto sugere que o cluster está a ter problemas em atribuir pods a nós. Para investigar mais aprofundadamente, pode examinar o registo dokube-scheduler
pod.kube-controller-manager
estado de funcionamento nos nós do painel de controlo: okube-controller-manager
monitoriza vários controladores, como os controladores ReplicaSet, Deployment e Namespace, entre outros. Se okube-controller-manager
for considerado não saudável, isto sugere que um ou mais dos controladores que gere podem não estar a funcionar corretamente. Para determinar o problema preciso, pode examinar o registo do pod, que pode fornecer mais informações sobre os controladores com mau funcionamento.kube-controller-manager
Capacidade do volume raiz: a verificação de funcionamento verifica se existe capacidade suficiente no volume raiz de cada nó do plano de controlo. Se a capacidade disponível for inferior a 512 MB, o verificador de estado de funcionamento alerta para o potencial risco de ficar sem espaço em disco.
Veja eventos de verificação de estado
Para ver alertas do verificador de estado de funcionamento de um cluster específico, execute o seguinte comando:
gcloud container aws clusters describe CLUSTER_NAME \
--location GOOGLE_CLOUD_LOCATION
Substitua o seguinte:
CLUSTER_NAME
: o nome do clusterGOOGLE_CLOUD_LOCATION
: o nome da Google Cloud localização que gere o cluster
Segue-se um excerto do tipo de resultado que pode esperar:
{ "name": "some-cluster-name", "description": "test-cluster", ... "errors": [ { "message": "Replica (replica-name)": kube-controller-manager is unhealthy" }, { "message": "Replica (replica-name)": not enough disk space on root volume, only 9 MB left" } ] ... }
Neste exemplo, a mensagem de erro indica que um kube-controller-manager
componente não está em bom estado e que a capacidade no volume raiz de um nó do plano de controlo está a ficar baixa.