Dieser Grundsatz in der Säule „Zuverlässigkeit“ des Google Cloud Well-Architected Framework enthält Empfehlungen, die Ihnen helfen, nach Ausfällen und Vorfällen effektive Postmortems durchzuführen.
Dieser Grundsatz ist für den Schwerpunkt Lernen im Bereich Zuverlässigkeit relevant.
Grundsatzübersicht
Ein Postmortem ist ein schriftlicher Bericht über einen Vorfall, seine Auswirkungen, die Maßnahmen zur Eindämmung oder Behebung des Vorfalls, die Ursachen und die Folgemaßnahmen, um ein erneutes Auftreten des Vorfalls zu verhindern. Ziel eines Postmortems ist es, aus Fehlern zu lernen und nicht, Schuld zuzuweisen.
Das folgende Diagramm zeigt den Workflow eines Postmortems:
Der Workflow eines Postmortems umfasst die folgenden Schritte:
- Postmortem erstellen
- Fakten erfassen
- Ursachen ermitteln und analysieren
- Zukunftspläne
- Plan ausführen
Führen Sie Postmortem-Analysen nach größeren und kleineren Ereignissen wie den folgenden durch:
- Für Nutzer sichtbare Ausfallzeiten oder Beeinträchtigungen, die einen bestimmten Grenzwert überschreiten.
- Datenverluste jeglicher Art.
- Eingriffe von Bereitschaftsingenieuren, z. B. ein Release-Rollback oder eine Umleitung des Traffics.
- Lösungszeiten, die einen festgelegten Grenzwert überschreiten.
- Überwachungsfehler, die in der Regel eine manuelle Vorfallserkennung erfordern.
Empfehlungen
Definieren Sie vor einem Vorfall Postmortem-Kriterien, damit alle wissen, wann ein Postmortem erforderlich ist.
Beachten Sie die Empfehlungen in den folgenden Unterabschnitten, um effektive Postmortems durchzuführen.
Führen Sie Postmortems ohne Schuldzuweisung durch
Bei effektiven Postmortems liegt der Fokus auf Prozessen, Tools und Technologien und nicht auf Einzelpersonen oder Teams. Ziel einer Postmortem-Analyse ist es, Ihre Technologie und Zukunft zu verbessern, nicht, den Schuldigen zu finden. Jeder macht Fehler. Ziel sollte es sein, die Fehler zu analysieren und daraus zu lernen.
Die folgenden Beispiele zeigen den Unterschied zwischen Feedback mit Schuldzuweisung und Feedback ohne Schuldzuweisung:
- Feedback mit Schuldzuweisung: "Wir müssen das gesamte komplizierte Back-End-System neu schreiben! Es ist in den letzten drei Quartalen jede Woche ausgefallen und ich bin sicher, dass wir alle es leid sind, die Probleme immer wieder einzeln zu beheben. Wenn ich noch einmal benachrichtigt werde, schreibe ich es selbst neu…“
- Feedback ohne Schuldzuweisung: "Eine Maßnahme zum Umschreiben des gesamten Back-End- Systems könnte verhindern, dass diese Probleme weiterhin auftreten. Das Wartungshandbuch für diese Version ist sehr lang und es ist wirklich schwierig, sich vollständig damit vertraut zu machen. Ich bin sicher, dass unsere zukünftigen Bereitschaftsingenieure uns dafür dankbar sein werden.“
Sorgen Sie dafür, dass der Postmortem-Bericht für alle Zielgruppen lesbar ist
Bewerten Sie für jede Information, die Sie in den Bericht aufnehmen möchten, ob sie wichtig und notwendig ist, damit die Zielgruppe versteht, was passiert ist. Sie können zusätzliche Daten und Erklärungen in einen Anhang des Berichts verschieben. Prüfer, die weitere Informationen benötigen, können diese anfordern.
Vermeiden Sie komplexe oder überentwickelte Lösungen
Bevor Sie nach Lösungen für ein Problem suchen, bewerten Sie die Bedeutung des Problems und die Wahrscheinlichkeit eines erneuten Auftretens. Wenn Sie das System komplexer machen, um Probleme zu beheben, die wahrscheinlich nicht wieder auftreten, kann dies zu einer erhöhten Instabilität führen.
Verbreiten Sie das Postmortem so weit wie möglich
Damit Probleme nicht ungelöst bleiben, veröffentlichen Sie das Ergebnis des Postmortems für ein breites Publikum und holen Sie sich Unterstützung vom Management. Der Wert eines Postmortems ist proportional zu dem, was nach dem Postmortem gelernt wird. Wenn mehr Personen aus Vorfällen lernen, sinkt die Wahrscheinlichkeit, dass ähnliche Fehler wieder auftreten.