Quando devi controllare rapidamente l'integrità dei cluster e dei workload di Google Kubernetes Engine (GKE), può essere difficile sapere da dove iniziare. Visualizzare l' integrità dei cluster e dei workload nella Google Cloud console ti aiuta a valutare rapidamente lo stato del tuo ambiente. L'integrità del cluster si riferisce all'integrità dell'infrastruttura GKE sottostante, come nodi e networking, mentre l'integrità del workload si riferisce allo stato e al rendimento delle app in esecuzione sul cluster.
Utilizza questa pagina per scoprire come navigare nelle pagine dei cluster e dei workload Kubernetes per ottenere una panoramica di alto livello, identificare potenziali problemi (come nodi sotto pressione delle risorse o pod in errore) ed esaminare in dettaglio risorse specifiche per maggiori dettagli.
Queste informazioni sono importanti per gli amministratori e gli operatori della piattaforma responsabili del mantenimento della stabilità del cluster e che devono eseguire valutazioni rapide dell'integrità e controlli delle risorse. Sono anche essenziali per gli sviluppatori di applicazioni che devono comprendere lo stato di runtime dei deployment e indagare sugli errori. Per ulteriori informazioni sui ruoli comuni e sulle attività di esempio a cui facciamo riferimento nei Google Cloud contenuti, consulta Ruoli e attività comuni degli utenti GKE.
Per fornire un quadro completo dell'integrità della tua app, la Google Cloud console ti dà accesso anche a potenti strumenti di logging e monitoraggio, che ti consentono di indagare sulla causa principale degli errori passati e di prevenirli in modo proattivo in futuro. Per ulteriori informazioni su questi strumenti, consulta Eseguire analisi storiche con Cloud Logging e Eseguire il monitoraggio proattivo con Cloud Monitoring.
Trovare problemi del cluster
La pagina Cluster Kubernetes fornisce una panoramica dell'integrità dei cluster. Per identificare i problemi con uno dei tuoi cluster, inizia da questa pagina.
Per iniziare, nella Google Cloud console, vai alla pagina Cluster Kubernetes.
Ecco alcuni esempi di come puoi utilizzare questa pagina per la risoluzione dei problemi:
- Per suggerimenti su come migliorare l'integrità del cluster, la strategia di upgrade e l'ottimizzazione dei costi, fai clic su Visualizza suggerimenti.
- Per identificare i cluster non integri, esamina la colonna Stato. Qualsiasi cluster che non abbia un segno di spunta verde richiede attenzione.
- Per visualizzare i potenziali problemi, esamina la colonna Notifiche. Fai clic su eventuali messaggi di notifica per ulteriori informazioni.
Esaminare un cluster specifico
Dopo aver scoperto un problema con un cluster, esplora la pagina Dettagli del cluster per informazioni approfondite che ti aiutano a risolvere i problemi del cluster e a comprenderne la configurazione.
Per andare alla pagina Dettagli di un cluster:
Vai alla pagina Cluster Kubernetes.
Esamina la colonna Nome e fai clic sul nome del cluster che vuoi esaminare.
Ecco alcuni esempi di come utilizzare la pagina Dettagli del cluster per risolvere i problemi del cluster:
Per i controlli di integrità generali, prova le seguenti opzioni:
Per visualizzare le dashboard a livello di cluster, vai alla scheda Osservabilità. Per impostazione predefinita, GKE abilita Cloud Monitoring quando crei un cluster. Quando Cloud Monitoring è abilitato, GKE configura automaticamente le dashboard in questa pagina. Ecco alcune delle visualizzazioni che potresti trovare più utili per la risoluzione dei problemi:
- Panoramica: visualizza un riepilogo di alto livello dell'integrità del cluster, dell'utilizzo delle risorse e degli eventi chiave. Questa dashboard ti aiuta a valutare rapidamente lo stato generale del cluster e a identificare potenziali problemi.
- Metriche del traffico: visualizza le metriche di networking basate sui nodi per gli insight sul traffico tra i workload Kubernetes.
- Stato del workload: visualizza lo stato di deployment, pod e container. Identifica le istanze in errore o non integre e rileva i vincoli delle risorse.
Piano di controllo: visualizza l'integrità e il rendimento del piano di controllo. Questa dashboard ti consente di monitorare le metriche chiave dei componenti come
kube-apiserveredetcd, identificare i colli di bottiglia delle prestazioni e rilevare gli errori dei componenti.
Per visualizzare gli errori recenti delle app, vai alla scheda Errori delle app. Le informazioni in questa scheda possono aiutarti a dare la priorità agli errori e a risolverli mostrando il numero di occorrenze, quando si è verificato un errore per la prima volta e quando si è verificato l'ultima volta.
Per esaminare ulteriormente un errore, fai clic sul messaggio di errore per visualizzare un report dettagliato, inclusi i link ai log pertinenti.
Se stai risolvendo i problemi dopo un upgrade o una modifica recente, controlla la sezione Nozioni di base sul cluster nella scheda Dettagli del cluster. Verifica che la versione elencata nel campo Versione sia quella prevista. Per ulteriori indagini, fai clic su Mostra cronologia degli upgrade nella sezione Upgrade.
Se utilizzi un cluster Standard e i pod sono bloccati nello stato
Pendingo sospetti che i nodi siano sovraccarichi, controlla la scheda Nodi. La scheda Nodi non è disponibile per i cluster Autopilot perché GKE gestisce i nodi per te.- Nella sezione Pool di nodi, verifica che lo scaling automatico sia configurato correttamente e che il tipo di macchina sia appropriato per i tuoi workload.
- Nella sezione Nodi, cerca eventuali nodi con uno stato diverso da
Ready. Lo statoNotReadyindica un problema con il nodo stesso, ad esempio pressione delle risorse o un problema con kubelet (kubelet è l'agente in esecuzione su ogni nodo per gestire i container).
Trovare problemi del workload
Se sospetti che ci sia un problema con un'app specifica, ad esempio un deployment non riuscito, vai alla pagina Workload nella Google Cloud console. Questa pagina fornisce una visualizzazione centralizzata di tutte le app in esecuzione nei cluster.
Per iniziare, nella Google Cloud console, vai alla Workload pagina.
Ecco alcuni esempi di come puoi utilizzare questa pagina per la risoluzione dei problemi:
- Per identificare i workload non integri, esamina la colonna Stato. Qualsiasi workload che non abbia un segno di spunta verde richiede attenzione.
- Se un'app non risponde, esamina la colonna Pod. Ad esempio, uno stato come 1/3 significa che è in esecuzione solo una delle tre repliche dell'app, il che indica un problema.
Esaminare un workload specifico
Dopo aver identificato un workload problematico nella panoramica, esplora la pagina Dettagli del workload per iniziare a isolare la causa principale.
Per andare alla pagina Dettagli di un workload:
Vai alla pagina Workload.
Esamina la colonna Nome e fai clic sul nome del workload che vuoi esaminare.
Ecco alcuni esempi di come utilizzare la pagina Dettagli del workload per risolvere i problemi dei workload:
Per controllare la configurazione del workload, utilizza le schede Panoramica e Dettagli del workload. Puoi utilizzare queste informazioni per verificare eventi come se sia stato eseguito il deployment del tag dell'immagine container corretto o per controllare le richieste e i limiti delle risorse del workload.
Per trovare il nome di un pod specifico in arresto anomalo, vai alla sezione Pod gestiti. Potresti aver bisogno di queste informazioni per i comandi
kubectl. Questa sezione elenca tutti i pod controllati dal workload, insieme ai relativi stati.Per visualizzare la cronologia delle modifiche recenti a un workload, vai alla scheda Cronologia delle revisioni. Se noti problemi di prestazioni dopo un nuovo deployment, utilizza questa sezione per identificare la revisione attiva. Puoi quindi confrontare le configurazioni della revisione corrente con quelle precedenti per individuare l'origine del problema. Se questa scheda non è visibile, il workload è di un tipo che non utilizza le revisioni o non ha ancora ricevuto aggiornamenti.
Se sembra che un deployment non sia riuscito, vai alla scheda Eventi. Questa pagina è spesso la fonte di informazioni più preziosa perché mostra gli eventi a livello di Kubernetes.
Per esaminare i log dell'app, fai clic sulla scheda Log. Questa pagina ti aiuta a capire cosa sta succedendo all'interno del cluster. Cerca qui i messaggi di errore e le analisi dello stack che possono aiutarti a diagnosticare i problemi.
Per verificare esattamente cosa è stato eseguito il deployment, visualizza la scheda YAML. Questa pagina mostra il manifest YAML live per il workload così come esiste nel cluster. Queste informazioni sono utili per trovare eventuali discrepanze rispetto ai manifest controllati dall'origine. Se stai visualizzando il manifest YAML di un singolo pod, questa scheda mostra anche lo stato del pod, che fornisce informazioni sugli errori a livello di pod.
Passaggi successivi
Leggi Esaminare lo stato di un cluster con
kubectl(la pagina successiva di questa serie).Guarda questi concetti applicati nello scenario di risoluzione dei problemi di esempio.
Per suggerimenti sulla risoluzione di problemi specifici, consulta le guide alla risoluzione dei problemi di GKE.
Se non riesci a trovare una soluzione al tuo problema nella documentazione, consulta Richiedere assistenza per ulteriore aiuto, inclusi suggerimenti sui seguenti argomenti:
- Aprire una richiesta di assistenza contattando l'assistenza clienti Google Cloud.
- Ottenere assistenza dalla community ponendo domande su Stack Overflow e utilizzando il tag
google-kubernetes-engineper cercare problemi simili. Puoi anche unirti al#kubernetes-enginecanale Slack per ulteriore assistenza dalla community. - Aprire problemi o richieste di funzionalità utilizzando lo strumento di monitoraggio dei problemi pubblico.