העמודה 'מהימנות' ב-Google Cloud Well-Architected Framework כוללת עקרונות והמלצות שיעזרו לכם לתכנן, לפרוס ולנהל עומסי עבודה מהימנים ב- Google Cloud.
המסמך הזה מיועד למומחי Cloud Architect, למפתחים, למהנדסי פלטפורמות, לאדמינים ולמהנדסי Site Reliability.
אמינות היא היכולת של מערכת לבצע באופן עקבי את הפונקציות המיועדות שלה בתנאים המוגדרים ולשמור על שירות ללא הפרעות. שיטות מומלצות לשיפור המהימנות כוללות יתירות, עיצוב עמיד בכשלים, מעקב ותהליכי שחזור אוטומטיים.
כחלק מהאמינות, חוסן הוא היכולת של המערכת לעמוד בכשלים או בשיבושים בלתי צפויים ולהתאושש מהם, תוך שמירה על הביצועים. תכונות שלGoogle Cloud , כמו פריסות מרובות אזורים, גיבויים אוטומטיים ופתרונות להתאוששות מאסון, יכולות לעזור לכם לשפר את החוסן של המערכת.
אמינות היא מרכיב חשוב באסטרטגיית הענן שלכם, בין השאר מהסיבות הבאות:
- זמן השבתה מינימלי: זמן השבתה עלול לגרום לאובדן הכנסות, לירידה בפריון ולפגיעה במוניטין. ארכיטקטורות עמידות יכולות לעזור להבטיח שהמערכות ימשיכו לפעול במהלך כשלים או ישתקמו ביעילות מכשלים.
- חוויית משתמש משופרת: המשתמשים מצפים לאינטראקציות חלקות עם הטכנולוגיה. מערכות עמידות יכולות לעזור לשמור על ביצועים וזמינות עקביים, והן מספקות שירות אמין גם בזמן ביקוש גבוה או בעיות בלתי צפויות.
- תקינות הנתונים: כשלים עלולים לגרום לאובדן נתונים או לפגמים בנתונים. מערכות עמידות מיישמות מנגנונים כמו גיבויים, יתירות ושכפול כדי להגן על הנתונים ולוודא שהם יישארו מדויקים ונגישים.
- המשכיות עסקית: העסק שלכם מסתמך על טכנולוגיה לפעולות קריטיות. ארכיטקטורות גמישות יכולות לעזור להבטיח המשכיות אחרי כשל קטסטרופלי, כך שהפעילות העסקית יכולה להימשך ללא שיבושים משמעותיים, וההתאוששות מהירה.
- תאימות: בתחומים רבים יש דרישות רגולטוריות לגבי זמינות המערכת והגנה על נתונים. ארכיטקטורות גמישות יכולות לעזור לכם לעמוד בתקנים האלה, כי הן מבטיחות שהמערכות יישארו פעילות ומאובטחות.
- הפחתת עלויות לטווח ארוך: ארכיטקטורות עמידות דורשות השקעה מראש, אבל העמידות יכולה לעזור להפחית את העלויות לאורך זמן על ידי מניעת השבתה יקרה, הימנעות מתיקונים תגובתיים ושימוש יעיל יותר במשאבים.
מנטליות ארגונית
כדי שהמערכות שלכם יהיו אמינות, אתם צריכים תוכנית ואסטרטגיה מבוססת. האסטרטגיה הזו צריכה לכלול הדרכה וסמכות לתת עדיפות לאמינות לצד יוזמות אחרות.
חשוב להבהיר שכל הארגון אחראי על האמינות, כולל צוותי הפיתוח, ניהול המוצר, התפעול, הנדסת הפלטפורמה ו-Site Reliability Engineering (SRE). גם קבוצות שמתמקדות בעסקים, כמו שיווק ומכירות, יכולות להשפיע על המהימנות.
כל צוות צריך להבין את יעדי האמינות ואת הסיכונים של האפליקציות שלו. הצוותים צריכים לעמוד בדרישות האלה. צריך לתעדף ולדווח על קונפליקטים בין מהימנות לבין פיתוח תכונות מוצר רגילות.
לתכנן ולנהל את האמינות באופן הוליסטי, בכל הפונקציות והצוותים. מומלץ להגדיר מרכז מצוינות בענן (CCoE) שכולל עקרון מהימנות. מידע נוסף זמין במאמר ייעול המעבר של הארגון לענן באמצעות מרכז מצוינות בענן.
תחומי המיקוד בנושא מהימנות
הפעילויות שאתם מבצעים כדי לתכנן, לפרוס ולנהל מערכת אמינה אפשר לחלק לקטגוריות הבאות: כל אחד מעקרונות המהימנות וההמלצות בעמודה הזו רלוונטי לאחד מתחומי ההתמקדות האלה.
- הגדרת היקף: כדי להבין את המערכת, צריך לבצע ניתוח מפורט של הארכיטקטורה שלה. חשוב להבין את הרכיבים, איך הם פועלים ואיך הם מתקשרים ביניהם, איך הנתונים והפעולות זורמים במערכת ומה יכול להשתבש. זיהוי כשלים, צווארי בקבוק וסיכונים פוטנציאליים, כדי שתוכלו לפעול לצמצום הבעיות האלה.
- המלצה: כדי למנוע כשלים במערכת, כדאי להטמיע תהליכי ניטור ומעקב מקיפים ורציפים. התצפית הזו מאפשרת להבין מגמות ולזהות בעיות פוטנציאליות באופן יזום.
- תגובה: כדי לצמצם את ההשפעה של כשלים, צריך להגיב בצורה מתאימה ולבצע שחזור יעיל. תשובות אוטומטיות יכולות גם לעזור לצמצם את ההשפעה של כשלים. גם עם תכנון ובקרה, עדיין יכולות להיות תקלות.
- למידה: כדי למנוע הישנות של כשלים, חשוב ללמוד מכל חוויה ולבצע את הפעולות המתאימות.
עקרונות ליבה
ההמלצות בעמודת המהימנות של Well-Architected Framework ממופות לעקרונות הליבה הבאים:
- הגדרת מהימנות על סמך יעדים של חוויית משתמש
- הגדרת יעדים ריאליים לאמינות
- פיתוח מערכות עם זמינות גבוהה באמצעות יתירות משאבים
- ניצול היתרונות של יכולת הרחבה אופקית
- איתור כשלים פוטנציאליים באמצעות יכולת התבוננות
- תכנון של הפחתה חיננית (graceful degradation)
- ביצוע בדיקות להתאוששות מכשלים
- ביצוע בדיקות לשחזור מאובדן נתונים
- עורכים ניתוח מפורט של האירוע
שותפים ביצירת התוכן
מחברים:
- Laura Hyatt | Customer Engineer, FSI
- Jose Andrade | Customer Engineer, SRE Specialist
- Gino Pelliccia | Principal Architect
תורמי תוכן אחרים:
- אנדרס-לאונרדו מרטינז-אורטיז | מנהל תוכנית טכנית
- Brian Kudzia | Enterprise Infrastructure Customer Engineer
- Daniel Lees | Cloud Security Architect
- Filipe Gracio, PhD | Customer Engineer, AI/ML Specialist
- גארי הרמסון (Gary Harmson) | אדריכל ראשי
- קומאר דהנגופאל | מפתח פתרונות חוצי-מוצרים
- Marwan Al Shawi | Partner Customer Engineer
- ניקולס פינטו (Nicolas Pintaux) | Customer Engineer, Application Modernization Specialist
- ראדיקה קאנאקאם | מובילת תוכנית, Google Cloud Well-Architected Framework
- ריאן קוקס (Ryan Cox) | אדריכל ראשי
- Samantha He | Technical Writer
- Wade Holmes | Global Solutions Director
- Zach Seils | מומחה לרשתות