העיקרון הזה, שנכלל בעמודה 'מהימנות' בGoogle Cloud מסגרת Well-Architected Framework, מספק המלצות לתכנון, לבנייה ולניהול של יתירות משאבים, שיכולות לעזור לכם להימנע מכשלים.
העיקרון הזה רלוונטי לתחום ההתמקדות של האמינות, שהוא הגדרת ההיקף.
סקירה כללית של העקרונות
אחרי שקובעים את רמת המהימנות שדרושה, צריך לתכנן את המערכות כך שיימנעו נקודות כשל יחידות. כל רכיב קריטי במערכת חייב להיות משוכפל בכמה מכונות, אזורים ואזורים גיאוגרפיים. לדוגמה, אי אפשר למקם מסד נתונים קריטי רק באזור אחד, ואי אפשר לפרוס שרת מטא-נתונים רק באזור או באזור זמין אחד. בדוגמאות האלה, אם יש הפסקה זמנית בשירות באזור או בתחום היחיד, המערכת תהיה מושבתת בכל העולם.
המלצות
כדי לבנות מערכות מיותרות, כדאי לעיין בהמלצות שבקטעי המשנה הבאים.
זיהוי של דומיינים של כשלים ושכפול של שירותים
כדאי למפות את תחומי הכשל של המערכת, החל ממכונות וירטואליות בודדות ועד לאזורים, ולתכנן יתירות בכל תחומי הכשל.
כדי להבטיח זמינות גבוהה, כדאי לפרוס את השירותים והאפליקציות שלכם בכמה אזורים ותחומים. מגדירים את המערכת למעבר אוטומטי לגיבוי (failover) כדי לוודא שהשירותים והאפליקציות ימשיכו להיות זמינים במקרה של הפסקות חשמל באזור או באזור.
דוגמאות לארכיטקטורות של אזורים מרובים ושל אזורים גיאוגרפיים מרובים מופיעות במאמר תכנון תשתית מהימנה לעומסי העבודה ב-Google Cloud Google Cloud.
זיהוי בעיות וטיפול בהן באופן מיידי
עוקבים באופן רציף אחרי הסטטוס של דומייני הכשל כדי לזהות בעיות ולטפל בהן במהירות.
אפשר לעקוב אחרי הסטטוס הנוכחי של Google Cloud השירותים בכל האזורים באמצעות לוח הבקרה שלGoogle Cloud Service Health. אפשר גם להשתמש במרכז האישי ב-Service Health כדי לראות אירועים שרלוונטיים לפרויקט שלכם. אתם יכולים להשתמש במאזני עומסים כדי לזהות את תקינות המשאבים ולהפנות באופן אוטומטי תנועה אל שרתים אחוריים תקינים. מידע נוסף מופיע במאמר בנושא סקירה כללית על בדיקות תקינות.
תרחישים של מעבר לשירות גיבוי
בדומה לתרגול כיבוי שריפות, מומלץ לבצע סימולציות של כשלים באופן קבוע כדי לאמת את היעילות של אסטרטגיות הרפליקציה והיתירות כשל.
מידע נוסף זמין במאמרים בנושא הדמיה של הפסקת שירות זמנית באזור עבור MIG אזורי והדמיה של כשל באזור באשכולות אזוריים של GKE.