Dieses Prinzip in der Säule „Zuverlässigkeit“ des Google Cloud Well-Architected Framework enthält Empfehlungen, die Ihnen helfen, nach Ausfällen und Vorfällen effektive Post-Mortem-Analysen durchzuführen.
Dieses Prinzip ist für den Lernen Schwerpunkt im Bereich Zuverlässigkeit relevant.
Übersicht über das Prinzip
Eine Post-Mortem-Analyse ist ein schriftlicher Bericht über einen Vorfall, seine Auswirkungen, die Maßnahmen zur Eindämmung oder Behebung des Vorfalls, die Ursachen und die Folgemaßnahmen, um ein erneutes Auftreten des Vorfalls zu verhindern. Ziel einer Post-Mortem-Analyse ist es, aus Fehlern zu lernen und nicht, Schuld zuzuweisen.
Das folgende Diagramm zeigt den Workflow einer Post-Mortem-Analyse:
Der Workflow einer Post-Mortem-Analyse umfasst die folgenden Schritte:
- Post-Mortem-Analyse erstellen
- Fakten erfassen
- Ursachen ermitteln und analysieren
- Zukunft planen
- Plan ausführen
Führen Sie Post-Mortem-Analysen nach größeren und kleineren Ereignissen wie den folgenden durch:
- Für Nutzer sichtbare Ausfallzeiten oder Beeinträchtigungen, die einen bestimmten Grenzwert überschreiten.
- Datenverluste jeglicher Art.
- Eingriffe von Bereitschaftsingenieuren, z. B. ein Release-Rollback oder eine Umleitung des Traffics.
- Lösungszeiten, die einen festgelegten Grenzwert überschreiten.
- Überwachungsfehler, die in der Regel eine manuelle Vorfallserkennung erfordern.
Empfehlungen
Definieren Sie vor einem Vorfall Kriterien für die Post-Mortem-Analyse, damit alle wissen, wann eine Post-Mortem-Analyse erforderlich ist.
Beachten Sie die Empfehlungen in den folgenden Unterabschnitten, um effektive Post-Mortem-Analysen durchzuführen.
Führen Sie Post-Mortem-Analysen ohne Schuldzuweisung durch
Bei effektiven Post-Mortem-Analysen liegt der Fokus auf Prozessen, Tools und Technologien und nicht darauf, Einzelpersonen oder Teams die Schuld zuzuweisen. Ziel einer Post-Mortem-Analyse ist es, Ihre Technologie und Zukunft zu verbessern und nicht, den Schuldigen zu finden. Jeder macht Fehler. Ziel sollte es sein, die Fehler zu analysieren und daraus zu lernen.
Die folgenden Beispiele zeigen den Unterschied zwischen Feedback mit Schuldzuweisung und Feedback ohne Schuldzuweisung:
- Feedback mit Schuldzuweisung: "Wir müssen das gesamte komplizierte Back-End-System neu schreiben! Es ist in den letzten drei Quartalen jede Woche ausgefallen und ich bin sicher, dass wir alle es leid sind, die Dinge immer wieder nur stückweise zu reparieren. Wenn ich noch einmal benachrichtigt werde, schreibe ich es selbst neu…“
- Feedback ohne Schuldzuweisung: "Eine Maßnahme zum Umschreiben des gesamten Back-End- Systems könnte verhindern, dass diese Vorfälle weiterhin auftreten. Das Wartungshandbuch für diese Version ist sehr lang und es ist wirklich schwierig, sich vollständig darin einzuarbeiten. Ich bin sicher, dass unsere zukünftigen Bereitschaftsingenieure uns dafür dankbar sein werden!“
Sorgen Sie dafür, dass der Post-Mortem-Bericht für alle Zielgruppen lesbar ist
Bewerten Sie für jede Information, die Sie in den Bericht aufnehmen möchten, ob sie wichtig und notwendig ist, damit die Zielgruppe versteht, was passiert ist. Sie können ergänzende Daten und Erklärungen in einen Anhang des Berichts verschieben. Prüfer, die weitere Informationen benötigen, können diese anfordern.
Vermeiden Sie komplexe oder überentwickelte Lösungen
Bevor Sie mit der Suche nach Lösungen für ein Problem beginnen, bewerten Sie die Bedeutung des Problems und die Wahrscheinlichkeit eines erneuten Auftretens. Wenn Sie das System komplexer machen, um Probleme zu lösen, die wahrscheinlich nicht wieder auftreten, kann dies zu einer erhöhten Instabilität führen.
Verbreiten Sie die Post-Mortem-Analyse so weit wie möglich
Damit Probleme nicht ungelöst bleiben, veröffentlichen Sie das Ergebnis der Post-Mortem-Analyse für ein breites Publikum und holen Sie sich Unterstützung vom Management. Der Wert einer Post-Mortem-Analyse ist proportional zu dem, was nach der Post-Mortem-Analyse gelernt wird. Wenn mehr Personen aus Vorfällen lernen, sinkt die Wahrscheinlichkeit, dass ähnliche Fehler wieder auftreten.