Questo principio del pilastro dell'affidabilità del Google Cloud framework Well-Architected fornisce suggerimenti per aiutarti a identificare in modo proattivo le aree in cui potrebbero verificarsi errori e guasti.
Questo principio è pertinente all'area di interesse dell'osservazione dell'affidabilità.
Panoramica dei principi
Per mantenere e migliorare l'affidabilità dei workload in Google Cloud, devi implementare un'osservabilità efficace utilizzando metriche, log e tracce.
- Le metriche sono misurazioni numeriche delle attività che vuoi monitorare per la tua applicazione a intervalli di tempo specifici. Ad esempio, potresti voler monitorare metriche tecniche come il tasso di richieste e la frequenza degli errori, che possono essere utilizzate come indicatori del livello del servizio (SLI). Potresti anche dover monitorare metriche aziendali specifiche dell'applicazione, come gli ordini effettuati e i pagamenti ricevuti.
- I log sono record con timestamp di eventi discreti che si verificano all'interno di un'applicazione o di un sistema. L'evento potrebbe essere un guasto, un errore o una modifica dello stato. I log potrebbero includere metriche e puoi anche utilizzarli per gli SLI.
- Una traccia rappresenta il percorso di un singolo utente o di una singola transazione attraverso una serie di applicazioni separate o i componenti di un'applicazione. Ad esempio, questi componenti potrebbero essere microservizi. Le tracce ti aiutano a monitorare i componenti utilizzati nei percorsi, dove esistono colli di bottiglia e la durata dei percorsi.
Metriche, log e tracce ti aiutano a monitorare continuamente il sistema. Il monitoraggio completo ti aiuta a scoprire dove e perché si sono verificati errori. Puoi anche rilevare potenziali guasti prima che si verifichino errori.
Consigli
Per rilevare in modo efficiente potenziali guasti, consulta i consigli nelle seguenti sottosezioni.
Acquisisci informazioni complete
Per monitorare le metriche chiave come i tempi di risposta e le frequenze di errore, utilizza Cloud Monitoring e Cloud Logging. Questi strumenti ti aiutano anche a garantire che le metriche soddisfino costantemente le esigenze del tuo workload.
Per prendere decisioni basate sui dati, analizza le metriche di servizio predefinite per comprendere le dipendenze dei componenti e il loro impatto sulle prestazioni complessive del workload.
Per personalizzare la strategia di monitoraggio, crea e pubblica le tue metriche utilizzando Google Cloud SDK.
Esegui la risoluzione dei problemi in modo proattivo
Implementa una gestione degli errori efficace e abilita la registrazione in tutti i componenti dei workload in Google Cloud. Attiva i log come i log di accesso di Cloud Storage e i log di flusso VPC.
Quando configuri la registrazione, tieni presente i costi associati costi. Per controllare i costi di logging, puoi configurare i filtri di esclusione nei sink di log per escludere l'archiviazione di determinati log.
Ottimizza l'utilizzo delle risorse
Monitora il consumo di CPU, le metriche di I/O di rete e le metriche di I/O del disco per rilevare le risorse con provisioning insufficiente e con provisioning eccessivo in servizi come GKE, Compute Engine e Managed Service for Apache Spark. Per un elenco completo dei servizi supportati, consulta la panoramica di Cloud Monitoring.
Assegna priorità agli avvisi
Per gli avvisi, concentrati sulle metriche principali, imposta soglie appropriate per ridurre al minimo l'eccesso di avvisi e assicurati rispondere in modo tempestivo ai problemi significativi. Questo approccio mirato ti consente di mantenere in modo proattivo l'affidabilità del workload. Per saperne di più, consulta la Panoramica degli avvisi.