העיקרון הזה, שנכלל בעמודה 'מהימנות' בGoogle Cloud מסגרת Well-Architected Framework, כולל המלצות שיעזרו לכם לבצע ניתוח יעיל של אירועים לאחר כשלים ותקריות.
העיקרון הזה רלוונטי לתחום ההתמקדות למידה בנושא אמינות.
סקירה כללית של העקרונות
דוח לאחר אירוע הוא תיעוד בכתב של אירוע, ההשפעה שלו, הפעולות שננקטו כדי לצמצם את ההשפעה של האירוע או לפתור אותו, שורשי הבעיה ופעולות המעקב שצריך לבצע כדי למנוע את הישנות של האירוע. המטרה של ניתוח לאחר אירוע היא ללמוד מהטעויות ולא להאשים אף אחד.
בתרשים הבא מוצג תהליך העבודה של ניתוח לאחר אירוע:
תהליך העבודה של ניתוח לאחר תקלה כולל את השלבים הבאים:
- יצירת מסמך הסקת מסקנות לאחר האירוע
- תיעוד העובדות
- זיהוי וניתוח של שורשי הבעיה
- תכנון לקראת העתיד
- ביצוע התוכנית
עורכים ניתוחים לאחר אירועים משמעותיים ואירועים לא משמעותיים, כמו:
- השבתות או שיבושים שגלויים למשתמשים וחורגים מסף מסוים.
- אובדן נתונים מכל סוג.
- התערבויות של מהנדסים בכוננות, כמו ביטול של עדכון או ניתוב מחדש של תנועת הגולשים.
- זמני פתרון שחורגים מסף מוגדר.
- מעקב אחרי כשלים, שבדרך כלל מרמזים על גילוי ידני של אירועים.
המלצות
כדאי להגדיר קריטריונים לניתוח לאחר אירוע לפני שמתרחש אירוע, כדי שכולם ידעו מתי צריך לבצע ניתוח כזה.
כדי לבצע ניתוח יעיל של אירועים שהתרחשו, כדאי לפעול לפי ההמלצות שבקטעי המשנה הבאים.
עריכת ניתוח לאחר תקלה ללא האשמה
בניתוח שלאחר המוות מתמקדים בתהליכים, בכלים ובטכנולוגיות, ולא מאשימים אנשים או צוותים. המטרה של ניתוח לאחר המוות היא לשפר את הטכנולוגיה ואת העתיד, ולא למצוא את האשם. כולם טועים לפעמים. המטרה צריכה להיות לנתח את הטעויות וללמוד מהן.
בדוגמאות הבאות אפשר לראות את ההבדל בין משוב שבו מאשימים מישהו לבין משוב ללא האשמה:
- משוב שכולל האשמות: "צריך לשכתב את כל מערכת ה-Backend המורכבת! הוא נשבר מדי שבוע בשלושת הרבעונים האחרונים, ואני בטוח שכולנו עייפנו מלתקן דברים באופן חלקי. באמת, אם אקבל עוד פעם הודעה על שינוי, אשכתב את זה בעצמי…"
- משוב ללא האשמה: "יכול להיות שפעולה כמו כתיבה מחדש של כל מערכת ה-Backend תמנע את המקרים האלה בעתיד. מדריך התחזוקה של הגרסה הזו ארוך מאוד וקשה מאוד ללמוד אותו באופן מלא. אני בטוח שהמהנדסים שלנו שזמינים לתמיכה יגידו לנו תודה בעתיד!"
הדוח שלאחר המוות צריך להיות קריא לכל קהלי היעד
לגבי כל פריט מידע שאתם מתכננים לכלול בדוח, כדאי להעריך אם המידע הזה חשוב והכרחי כדי לעזור לקהל להבין מה קרה. אפשר להעביר נתונים משלימים והסברים לנספח של הדוח. אם בודקים יצטרכו מידע נוסף, הם יוכלו לבקש אותו.
אל תשתמשו בפתרונות מורכבים או מתוחכמים מדי
לפני שמתחילים לחפש פתרונות לבעיה, חשוב להעריך את חומרת הבעיה ואת הסיכוי שהיא תחזור על עצמה. הוספת מורכבות למערכת כדי לפתור בעיות שלא סביר שיקרו שוב עלולה להוביל לחוסר יציבות מוגבר.
משתפים את סיכום האירוע עם כמה שיותר אנשים
כדי לוודא שהבעיות לא יישארו ללא פתרון, כדאי לפרסם את תוצאות הבדיקה לקהל רחב ולקבל תמיכה מההנהלה. הערך של ניתוח לאחר מעשה הוא ביחס ישר ללמידה שמתרחשת אחרי הניתוח. ככל שיותר אנשים לומדים מאירועים, כך קטן הסיכוי שיהיו כשלים דומים בעתיד.