Gründliche Post-Mortem-Analysen durchführen

Last reviewed 2024-12-30 UTC

Dieser Grundsatz in der Säule „Zuverlässigkeit“ des Google Cloud Well-Architected Framework enthält Empfehlungen, die Ihnen helfen, nach Ausfällen und Vorfällen effektive Nachanalysen durchzuführen.

Dieser Grundsatz bezieht sich auf den Lernen Fokusbereich der Zuverlässigkeit.

Übersicht über den Grundsatz

Eine Nachanalyse ist eine schriftliche Aufzeichnung eines Vorfalls, seiner Auswirkungen, der Maßnahmen zur Eindämmung oder Behebung des Vorfalls, der Ursachen und der Folgemaßnahmen, um ein erneutes Auftreten des Vorfalls zu verhindern. Ziel einer Nachanalyse ist es, aus Fehlern zu lernen und nicht, Schuld zuzuweisen.

Das folgende Diagramm zeigt den Workflow einer Nachanalyse:

Der Workflow eines Postmortems.

Der Workflow einer Nachanalyse umfasst die folgenden Schritte:

  • Nachanalyse erstellen
  • Fakten erfassen
  • Ursachen ermitteln und analysieren
  • Zukunftspläne
  • Plan ausführen

Führen Sie Nachanalysen nach wichtigen und weniger wichtigen Ereignissen wie den folgenden durch:

  • Für Nutzer sichtbare Ausfallzeiten oder Beeinträchtigungen, die einen bestimmten Grenzwert überschreiten.
  • Datenverluste jeglicher Art.
  • Eingriffe von Bereitschaftsingenieuren, z. B. ein Rollback einer Version oder eine Umleitung des Traffics.
  • Lösungszeiten über einem festgelegten Grenzwert.
  • Überwachungsfehler, die in der Regel eine manuelle Vorfallserkennung erfordern.

Empfehlungen

Definieren Sie vor einem Vorfall Kriterien für die Nachanalyse, damit alle wissen, wann eine Nachanalyse erforderlich ist.

Beachten Sie die Empfehlungen in den folgenden Unterabschnitten, um effektive Nachanalysen durchzuführen.

Führen Sie Nachanalysen ohne Schuldzuweisung durch

Bei effektiven Nachanalysen liegt der Fokus auf Prozessen, Tools und Technologien und nicht auf Einzelpersonen oder Teams. Ziel einer Nachanalyse ist es, Ihre Technologie und Zukunft zu verbessern, nicht, den Schuldigen zu finden. Jeder macht Fehler. Ziel sollte es sein, die Fehler zu analysieren und daraus zu lernen.

Die folgenden Beispiele zeigen den Unterschied zwischen Feedback mit Schuldzuweisung und Feedback ohne Schuldzuweisung:

  • Feedback mit Schuldzuweisung: "Wir müssen das gesamte komplizierte Back-End-System neu schreiben! Es ist in den letzten drei Quartalen jede Woche ausgefallen und ich bin sicher, dass wir alle es leid sind, die Dinge immer wieder nur stückweise zu reparieren. Wenn ich noch einmal benachrichtigt werde, schreibe ich es selbst neu…“
  • Feedback ohne Schuldzuweisung: "Eine Maßnahme zum Umschreiben des gesamten Back-End- Systems könnte verhindern, dass diese Ausfälle weiterhin auftreten. Das Wartungshandbuch für diese Version ist ziemlich lang und es ist wirklich schwierig, sich vollständig darin einzuarbeiten. Ich bin sicher, dass unsere zukünftigen Bereitschaftsingenieure uns dafür dankbar sein werden!“

Sorgen Sie dafür, dass der Nachanalysebericht für alle Zielgruppen lesbar ist

Bewerten Sie für jede Information, die Sie in den Bericht aufnehmen möchten, ob sie wichtig und notwendig ist, damit die Zielgruppe versteht, was passiert ist. Sie können ergänzende Daten und Erklärungen in einen Anhang des Berichts verschieben. Prüfer, die weitere Informationen benötigen, können diese anfordern.

Vermeiden Sie komplexe oder überentwickelte Lösungen

Bevor Sie mit der Suche nach Lösungen für ein Problem beginnen, bewerten Sie die Bedeutung des Problems und die Wahrscheinlichkeit eines erneuten Auftretens. Wenn Sie das System komplexer machen, um Probleme zu beheben, die wahrscheinlich nicht wieder auftreten, kann dies zu einer erhöhten Instabilität führen.

Verbreiten Sie die Nachanalyse so weit wie möglich

Damit Probleme nicht ungelöst bleiben, veröffentlichen Sie die Ergebnisse der Nachanalyse für ein breites Publikum und holen Sie sich Unterstützung vom Management. Der Wert einer Nachanalyse ist proportional zu dem, was nach der Nachanalyse gelernt wird. Wenn mehr Personen aus Vorfällen lernen, sinkt die Wahrscheinlichkeit, dass ähnliche Fehler wieder auftreten.