העיקרון הזה, שנכלל בעמודה 'מהימנות' בGoogle Cloud מסגרת Well-Architected Framework, מספק המלצות לתכנון, לבנייה ולניהול של יתירות משאבים, שיכולות לעזור לכם להימנע מכשלים.
העיקרון הזה רלוונטי להגדרת ההיקף של תחום המיקוד בנושא אמינות.
סקירה כללית של העקרונות
אחרי שקובעים את רמת המהימנות שדרושה, צריך לתכנן את המערכות כך שיימנעו מנקודות כשל יחידות. כל רכיב קריטי במערכת חייב להיות משוכפל במספר מכונות, אזורים ואזורים גיאוגרפיים. לדוגמה, אי אפשר למקם מסד נתונים קריטי רק באזור אחד, ואי אפשר לפרוס שרת מטא-נתונים רק באזור אחד או באזור זמין אחד. בדוגמאות האלה, אם יש הפסקת חשמל באזור או בתחום היחיד, המערכת מושבתת בכל העולם.
המלצות
כדי לבנות מערכות מיותרות, כדאי לעיין בהמלצות שבקטעי המשנה הבאים.
זיהוי של דומיינים של כשלים ושכפול של שירותים
כדאי למפות את אזורי הכשל של המערכת, החל ממכונות וירטואליות בודדות ועד לאזורים, ולתכנן יתירות בכל אזורי הכשל.
כדי להבטיח זמינות גבוהה, כדאי לפרוס את השירותים והאפליקציות שלכם בכמה אזורים ותחומים. כדאי להגדיר את המערכת ליתירות כשל אוטומטית כדי לוודא שהשירותים והאפליקציות ימשיכו להיות זמינים במקרה של הפסקות זמניות באזור או בתחום.
דוגמאות לארכיטקטורות מרובות אזורים ומרובות אזורי זמינות מופיעות במאמר תכנון תשתית מהימנה לעומסי העבודה ב-Google Cloud Google Cloud.
זיהוי בעיות וטיפול בהן באופן מיידי
עוקבים באופן רציף אחרי הסטטוס של דומייני הכשל כדי לזהות בעיות ולטפל בהן במהירות.
אתם יכולים לעקוב אחרי הסטטוס הנוכחי של שירותים בכל האזורים באמצעות Google Cloud לוח הבקרה Service Health. אתם יכולים גם לראות אירועים שרלוונטיים לפרויקט שלכם באמצעות Service Health בהתאמה אישית. אתם יכולים להשתמש במאזני עומסים כדי לזהות את תקינות המשאבים ולהפנות באופן אוטומטי את התעבורה לעורפי קצה תקינים. מידע נוסף זמין במאמר סקירה כללית על בדיקות תקינות. Google Cloud
בדיקת תרחישי מעבר לגיבוי בעת כשל
בדומה לתרגול כיבוי שריפות, מומלץ לבצע סימולציות של כשלים באופן קבוע כדי לאמת את היעילות של אסטרטגיות השכפול והמעבר לגיבוי.
מידע נוסף זמין במאמרים בנושא הדמיה של הפסקת חשמל באזור עבור MIG אזורי והדמיה של כשל באזור באשכולות אזוריים של GKE.