Ce principe du pilier "Fiabilité" du Google Cloud Well-Architected Framework fournit des recommandations pour vous aider à mener des analyses post-mortem efficaces après des échecs et des incidents.
Ce principe concerne le domaine d'intérêt Apprentissage de la fiabilité.
Présentation du principe
Une analyse post-mortem est un enregistrement écrit d'un incident, de son impact, des mesures prises pour l'atténuer ou le résoudre, des causes premières et des actions de suivi permettant d'éviter qu'il ne se reproduise. L'objectif d'une analyse post-mortem est d'apprendre des erreurs et non de chercher des responsables.
Le schéma suivant illustre le workflow d'une analyse post-mortem :
Le workflow d'une analyse post-mortem comprend les étapes suivantes :
- Créer une analyse post-mortem
- Recueillir les faits
- Identifier et analyser les causes premières
- Planifier l'avenir
- Exécuter le plan
Effectuez des analyses post-mortem après des événements majeurs et non majeurs, comme les suivants :
- Indisponibilités ou dégradations visibles par l'utilisateur au-delà d'un certain seuil.
- Pertes de données de toute nature.
- Interventions d'ingénieurs d'astreinte, telles qu'une restauration de version ou un réacheminement du trafic.
- Délais de résolution supérieurs à un seuil défini.
- Échecs de surveillance, qui impliquent généralement une détection manuelle des incidents.
Recommandations
Définissez des critères d'analyse post-mortem avant qu'un incident ne se produise afin que tout le monde sache quand une analyse post-mortem est nécessaire.
Pour mener des analyses post-mortem efficaces, tenez compte des recommandations des sous-sections suivantes.
Mener des analyses post-mortem non accusatoires
Les analyses post-mortem efficaces se concentrent sur les processus, les outils et les technologies, et ne blâment pas les personnes ni les équipes. L'objectif d'une analyse post-mortem est d'améliorer votre technologie et votre avenir, et non de trouver le coupable. Tout le monde fait des erreurs. L'objectif doit être d'analyser les erreurs et d'en tirer des leçons.
Les exemples suivants montrent la différence entre les commentaires qui attribuent la faute et les commentaires non accusatoires :
- Commentaires qui attribuent la faute : "Nous devons réécrire l'ensemble du système backend backend complexe ! Il tombe en panne chaque semaine depuis trois trimestres et je suis sûr que nous en avons tous assez de réparer les choses au coup par coup. Sérieusement, si je suis rappelé une fois de plus, je le réécrirai moi-même…"
- Commentaires non accusatoires : "Une action visant à réécrire l'ensemble du système backend pourrait en fait empêcher ces pages de continuer à se produire. Le manuel de maintenance de cette version est assez long et il est vraiment difficile de se former complètement. Je suis sûr que nos futurs ingénieurs d'astreinte nous remercieront !"
Rendre le rapport d'analyse post-mortem lisible par toutes les audiences cibles
Pour chaque information que vous prévoyez d'inclure dans le rapport, évaluez si elle est importante et nécessaire pour aider l'audience à comprendre ce qui s'est passé. Vous pouvez déplacer les données et explications supplémentaires dans une annexe du rapport. Les relecteurs qui ont besoin de plus d'informations peuvent en faire la demande.
Éviter les solutions complexes ou surdimensionnées
Avant de commencer à explorer des solutions à un problème, évaluez l'importance du problème et la probabilité qu'il se reproduise. Ajouter de la complexité au système pour résoudre des problèmes peu susceptibles de se reproduire peut entraîner une instabilité accrue.
Partager l'analyse post-mortem aussi largement que possible
Pour vous assurer que les problèmes ne restent pas non résolus, publiez les résultats de l'analyse post-mortem auprès d'une large audience et obtenez le soutien de la direction. La valeur d'une analyse post-mortem est proportionnelle à l'apprentissage qui se produit après l'analyse post-mortem. Lorsque davantage de personnes tirent des leçons des incidents, la probabilité que des échecs similaires se reproduisent est réduite.