Eseguire analisi post mortem approfondite

Last reviewed 2024-12-30 UTC

Questo principio del pilastro dell'affidabilità del Google Cloud Well-Architected Framework fornisce consigli per aiutarti a condurre analisi post mortem efficaci dopo guasti e incidenti.

Questo principio è pertinente all'area di interesse dell'apprendimento dell'affidabilità.

Panoramica del principio

Un'analisi post mortem è una registrazione scritta di un incidente, del suo impatto, delle azioni intraprese per mitigare o risolvere l'incidente, delle cause principali e delle azioni di follow-up per impedire che l'incidente si ripeta. L'obiettivo di un'analisi post mortem è imparare dagli errori e non attribuire colpe.

Il seguente diagramma mostra il flusso di lavoro di un'analisi post mortem:

Il flusso di lavoro di un postmortem.

Il flusso di lavoro di un'analisi post mortem include i seguenti passaggi:

Crea analisi post mortem
Acquisisci i fatti
Identifica e analizza le cause principali
Pianifica il futuro
Esegui il piano

Esegui analisi post mortem dopo eventi importanti e non importanti come i seguenti:

Tempi di inattività o degradazioni visibili agli utenti oltre una determinata soglia.
Perdite di dati di qualsiasi tipo.
Interventi da parte di ingegneri di turno, come un rollback della release o un reindirizzamento del traffico.
Tempi di risoluzione superiori a una soglia definita.
Errori di monitoraggio, che in genere implicano la rilevazione manuale degli incidenti.

Consigli

Definisci i criteri di analisi post mortem prima che si verifichi un incidente, in modo che tutti sappiano quando è necessaria un'analisi post mortem.

Per condurre analisi post mortem efficaci, tieni presente i consigli nelle seguenti sottosezioni.

Esegui analisi post mortem senza attribuzione delle colpe

Le analisi post mortem efficaci si concentrano su processi, strumenti e tecnologie e non attribuiscono colpe a singoli o team. Lo scopo di un'analisi post mortem è migliorare la tecnologia e il futuro, non trovare il colpevole. Tutti commettono errori. L'obiettivo dovrebbe essere analizzare gli errori e imparare da essi.

I seguenti esempi mostrano la differenza tra il feedback che attribuisce colpe e il feedback senza attribuzione delle colpe:

Feedback che attribuisce colpe: "Dobbiamo riscrivere l'intero sistema di backend complicato! Si interrompe settimanalmente negli ultimi tre trimestri e sono sicuro che siamo tutti stanchi di risolvere le cose in modo frammentario. Seriamente, se ricevo un altro avviso, lo riscrivo io stesso…"
Feedback senza attribuzione delle colpe: "Un'azione per riscrivere l'intero sistema di backend potrebbe effettivamente impedire che queste pagine continuino a verificarsi. Il manuale di manutenzione per questa versione è piuttosto lungo e molto difficile da imparare completamente. Sono sicuro che i nostri futuri ingegneri di turno ci ringrazieranno!"

Rendi il report di analisi post mortem leggibile da tutti i destinatari previsti

Per ogni informazione che intendi includere nel report, valuta se è importante e necessaria per aiutare il pubblico a capire cosa è successo. Puoi spostare i dati e le spiegazioni supplementari in un'appendice del report. I revisori che hanno bisogno di ulteriori informazioni possono richiederle.

Evita soluzioni complesse o eccessivamente elaborate

Prima di iniziare a esplorare le soluzioni per un problema, valuta l'importanza del problema e la probabilità che si ripresenti. L'aggiunta di complessità al sistema per risolvere problemi che è improbabile che si ripresentino può portare a una maggiore instabilità.

Condividi l'analisi post mortem il più ampiamente possibile

Per assicurarti che i problemi non rimangano irrisolti, pubblica il risultato dell'analisi post mortem a un vasto pubblico e ottieni il supporto della direzione. Il valore di un'analisi post mortem è proporzionale all'apprendimento che si verifica dopo l'analisi post mortem. Quando più persone imparano dagli incidenti, la probabilità che si verifichino errori simili si riduce.

Indietro

Esegui test per il ripristino dalla perdita di dati

Eseguire analisi post mortem approfondite Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.