עורכים ניתוח מקיף של האירוע

Last reviewed 2024-12-30 UTC

העיקרון הזה, שנכלל בעמודה 'מהימנות' בGoogle Cloud Well-Architected Framework, כולל המלצות שיעזרו לכם לבצע ניתוח אפקטיבי של אירועים לאחר כשלים ותקריות.

העיקרון הזה רלוונטי לתחום ההתמקדות למידה של אמינות.

סקירה כללית של העקרונות

דוח פוסט-מורטם הוא תיעוד בכתב של אירוע, ההשפעה שלו, הפעולות שננקטו כדי לצמצם את ההשפעה או לפתור את האירוע, הסיבות הבסיסיות והפעולות שצריך לבצע כדי למנוע את הישנות האירוע. המטרה של דוח פוסט-מורטם היא ללמוד מטעויות ולא להאשים אף אחד.

התרשים הבא מציג את תהליך העבודה של ניתוח לאחר מעשה:

תהליך העבודה של ניתוח לאחר תקרית.

תהליך העבודה של ניתוח לאחר תקלה כולל את השלבים הבאים:

  • יצירת ניתוח לאחר המוות
  • תיעוד העובדות
  • זיהוי וניתוח של שורשי הבעיה
  • תכנון לקראת העתיד
  • הרצת התוכנית

עורכים ניתוחים לאחר אירועים משמעותיים ואירועים לא משמעותיים, כמו:

  • השבתות או שיבושים שגלויים למשתמשים וחורגים מסף מסוים.
  • אובדן נתונים מכל סוג.
  • התערבויות של מהנדסים בכוננות, כמו ביטול של גרסת תוכנה או ניתוב מחדש של תנועת הגולשים.
  • זמני פתרון שחורגים מסף מוגדר.
  • מעקב אחרי כשלים, שבדרך כלל מרמזים על גילוי ידני של אירועים.

המלצות

כדאי להגדיר קריטריונים לניתוח לאחר אירוע לפני שמתרחש אירוע, כדי שכולם ידעו מתי צריך לבצע ניתוח כזה.

כדי לבצע ניתוח יעיל של אירועים שהתרחשו, כדאי לעיין בהמלצות שבקטעי המשנה הבאים.

עורכים ניתוח לאחר תקלה ללא האשמה

ניתוח אפקטיבי של אירוע מתמקד בתהליכים, בכלים ובטכנולוגיות, ולא בהטלת אשמה על אנשים או צוותים. המטרה של ניתוח אירוע היא לשפר את הטכנולוגיה ואת העתיד, ולא למצוא את האשם. כולם עושים טעויות. המטרה צריכה להיות ניתוח הטעויות ולמידה מהן.

בדוגמאות הבאות אפשר לראות את ההבדל בין משוב שבו מאשימים מישהו לבין משוב ללא האשמה:

  • משוב שכולל האשמות: "צריך לשכתב את כל מערכת ה-backend המורכבת! היא מתקלקלת מדי שבוע כבר שלושה רבעונים, ואני בטוח שכולנו עייפנו מלתקן אותה חלק אחרי חלק. ברצינות, אם יקראו לי עוד פעם לתיקון, אני אשכתב אותה בעצמי…"
  • משוב ללא האשמה: "יכול להיות שפריט פעולה לכתיבה מחדש של כל מערכת ה-Backend ימנע את הבעיות האלה בעתיד. מדריך התחזוקה של הגרסה הזו ארוך מאוד וקשה להבין אותו באופן מלא. אני בטוח שהמהנדסים שלנו שיהיו בכוננות בעתיד יודו לנו!"

הדוח שלאחר המוות צריך להיות קריא לכל קהלי היעד

לגבי כל פריט מידע שאתם מתכננים לכלול בדוח, כדאי להעריך אם המידע הזה חשוב והכרחי כדי לעזור לקהל להבין מה קרה. אפשר להעביר נתונים משלימים והסברים לנספח של הדוח. אם נדרש מידע נוסף, בודקים יכולים לבקש אותו.

אל תשתמשו בפתרונות מורכבים או מתוחכמים מדי

לפני שמתחילים לחפש פתרונות לבעיה, חשוב להעריך את חשיבות הבעיה ואת הסיכוי שהיא תחזור על עצמה. הוספת מורכבות למערכת כדי לפתור בעיות שלא סביר שיקרו שוב עלולה להוביל לחוסר יציבות.

משתפים את סיכום האירוע עם כמה שיותר אנשים

כדי לוודא שהבעיות לא יישארו ללא פתרון, כדאי לפרסם את תוצאות הבדיקה לקהל רחב ולקבל תמיכה מההנהלה. הערך של ניתוח לאחר מעשה הוא ביחס ישר ללמידה שמתרחשת אחרי הניתוח. ככל שיותר אנשים לומדים מאירועים, כך קטן הסיכוי שיהיו כשלים דומים בעתיד.