Gründliche Post-Mortem-Analysen durchführen

Last reviewed 2024-12-30 UTC

Dieser Grundsatz in der Säule „Zuverlässigkeit“ des Google Cloud Well-Architected Framework enthält Empfehlungen, die Ihnen helfen, nach Ausfällen und Vorfällen effektive Post-Mortem-Analysen durchzuführen.

Dieser Grundsatz ist für den Schwerpunkt Lernen im Bereich Zuverlässigkeit relevant.

Grundsatzübersicht

Eine Post-Mortem-Analyse ist eine schriftliche Aufzeichnung eines Vorfalls, seiner Auswirkungen, der Maßnahmen zur Eindämmung oder Behebung des Vorfalls, der Ursachen und der Folgemaßnahmen, um ein erneutes Auftreten des Vorfalls zu verhindern. Ziel einer Post-Mortem-Analyse ist es, aus Fehlern zu lernen und nicht, Schuld zuzuweisen.

Das folgende Diagramm zeigt den Workflow einer Post-Mortem-Analyse:

Der Workflow eines Postmortems.

Der Workflow einer Post-Mortem-Analyse umfasst die folgenden Schritte:

  • Post-Mortem-Analyse erstellen
  • Fakten erfassen
  • Ursachen ermitteln und analysieren
  • Zukunftspläne
  • Plan ausführen

Führen Sie Post-Mortem-Analysen nach größeren und kleineren Ereignissen wie den folgenden durch:

  • Für Nutzer sichtbare Ausfallzeiten oder Beeinträchtigungen, die einen bestimmten Grenzwert überschreiten.
  • Datenverluste jeglicher Art.
  • Eingriffe von Bereitschaftsingenieuren, z. B. ein Release-Rollback oder eine Umleitung des Traffics.
  • Lösungszeiten über einem festgelegten Grenzwert.
  • Monitoring-Fehler, die in der Regel eine manuelle Vorfallerkennung erfordern.

Empfehlungen

Definieren Sie vor einem Vorfall Kriterien für die Post-Mortem-Analyse, damit jeder weiß, wann eine Post-Mortem-Analyse erforderlich ist.

Beachten Sie die Empfehlungen in den folgenden Unterabschnitten, um effektive Post-Mortem-Analysen durchzuführen.

Post-Mortem-Analysen ohne Schuldzuweisung durchführen

Bei effektiven Post-Mortem-Analysen liegt der Fokus auf Prozessen, Tools und Technologien. Einzelpersonen oder Teams werden nicht beschuldigt. Ziel einer Post-Mortem-Analyse ist es, Ihre Technologie und Zukunft zu verbessern, nicht, den Schuldigen zu finden. Jeder macht Fehler. Ziel sollte es sein, die Fehler zu analysieren und daraus zu lernen.

Die folgenden Beispiele zeigen den Unterschied zwischen Feedback mit Schuldzuweisung und Feedback ohne Schuldzuweisung:

  • Feedback mit Schuldzuweisung: "Wir müssen das gesamte komplizierte Back-End-System neu schreiben! Es ist in den letzten drei Quartalen jede Woche ausgefallen und ich bin sicher, dass wir alle es leid sind, die Dinge immer wieder nur stückweise zu reparieren. Wenn ich noch einmal benachrichtigt werde, schreibe ich es selbst neu…“
  • Feedback ohne Schuldzuweisung: "Eine Maßnahme zum Umschreiben des gesamten Back-End- Systems könnte verhindern, dass diese Ausfälle weiterhin auftreten. Das Wartungshandbuch für diese Version ist sehr lang und es ist wirklich schwierig, sich vollständig damit vertraut zu machen. Ich bin sicher, dass unsere zukünftigen Bereitschaftsingenieure uns dafür dankbar sein werden!“

Post-Mortem-Bericht für alle Zielgruppen lesbar machen

Bewerten Sie für jede Information, die Sie in den Bericht aufnehmen möchten, ob sie wichtig und notwendig ist, damit die Zielgruppe versteht, was passiert ist. Sie können ergänzende Daten und Erklärungen in einen Anhang des Berichts verschieben. Prüfer, die weitere Informationen benötigen, können diese anfordern.

Komplexe oder überentwickelte Lösungen vermeiden

Bevor Sie mit der Suche nach Lösungen für ein Problem beginnen, bewerten Sie die Bedeutung des Problems und die Wahrscheinlichkeit eines erneuten Auftretens. Wenn Sie das System komplexer machen, um Probleme zu lösen, die wahrscheinlich nicht wieder auftreten, kann dies zu einer erhöhten Instabilität führen.

Post-Mortem-Analyse so weit wie möglich verbreiten

Damit Probleme nicht ungelöst bleiben, veröffentlichen Sie die Ergebnisse der Post-Mortem-Analyse für ein breites Publikum und holen Sie sich Unterstützung vom Management. Der Wert einer Post-Mortem-Analyse ist proportional zu dem, was nach der Analyse gelernt wird. Wenn mehr Personen aus Vorfällen lernen, sinkt die Wahrscheinlichkeit, dass ähnliche Fehler wieder auftreten.