מידע על שכפול דיסקים סינכרוני

‫ דיסקים לאחסון מתמיד של אזור ו-Hyperdisk Balanced High Availability הם אפשרויות אחסון שמאפשרות לכם להטמיע שירותים של זמינות גבוהה (HA) ב-Compute Engine. אחסון מתמיד (persistent disk) אזורי ו-Hyperdisk Balanced High Availability מבצעים רפליקציה סינכרונית של נתונים בין שני אזורים באותו אזור, ומבטיחים זמינות גבוהה של נתוני הדיסק עד לכשל אזורי אחד.

נפחי אחסון של Persistent Disk אזוריים ושל Hyperdisk Balanced High Availability מיועדים לעומסי עבודה שנדרשים בהם יעד להתאוששות מאסון (RPO) ומשך התאוששות (RTO) נמוכים יותר. מידע נוסף על RPO ו-RTO זמין במאמר מושגי יסוד בתכנון התאוששות מאסון.

נפחי אחסון מתמיד (persistent disk) אזוריים ונפחי Hyperdisk Balanced High Availability מיועדים לעבודה עם קבוצות אזוריות של מכונות וירטואליות מנוהלות.

במסמך הזה מפורטת סקירה כללית על בניית שירותים עם זמינות גבוהה באמצעותכרכים של Persistent Disk אזורי וכרכים של Hyperdisk Balanced High Availability.

כשמחליטים להשתמש ב- Regional Persistent Disk או ב- Hyperdisk Balanced High Availability, חשוב להשוות בין האפשרויות השונות להגדלת זמינות השירות ובין העלות, הביצועים והעמידות של ארכיטקטורות שירות שונות.

מידע על שכפול דיסקים סינכרוני

נפח אחסון מתמיד (Persistent Disk) אזורי או נפח Hyperdisk Balanced High Availability, שנקרא גם דיסק אזורי או דיסק עם שכפול סינכרוני, כולל אזור ראשי ואזור משני באזור שבו הוא מאחסן את נתוני הדיסק:

  • התחום הראשי הוא אותו תחום שבו נמצאת מכונת החישוב שאליה מצרפים את הדיסק.
  • אזור משני הוא אזור חלופי שתבחרו באותו אזור.

‫Compute Engine שומר עותקים של הדיסק בשני התחומים האלה. כשכותבים נתונים לדיסק, Compute Engine משכפל את הנתונים באופן סינכרוני לדיסקים המשוכפלים בשני התחומים כדי להבטיח זמינות גבוהה. הנתונים של כל רפליקה אזורית מפוזרים בין כמה מכונות פיזיות באזור כדי להבטיח עמידות. רפליקות של תחום מבטיחות שהנתונים בדיסק יישארו זמינים ומספקות הגנה מפני הפסקות זמניות באחד מהתחומים של הדיסק.

מצב הרפליקה לרפליקות אזוריות

מצב העותק של הדיסק עבור Persistent Disk אזורי או Hyperdisk Balanced High Availability מראה את המצב של עותק אזורי בהשוואה לתוכן של הדיסק. רפליקות אזוריות עבור הדיסקים שלכם נמצאות תמיד באחד מהסטטוסים הבאים:

  • מסונכרן: הרפליקה זמינה, מקבלת באופן סינכרוני את כל הפעולות שבוצעו בדיסק, והיא מעודכנת בכל הנתונים בדיסק.
  • השלמת פערים: הרפליקה זמינה אבל עדיין משלימה פערים עם הנתונים בדיסק מהרפליקה השנייה.
  • לא מסונכרן: הרפליקה אינה זמינה באופן זמני ואינה מסונכרנת עם הנתונים בדיסק.

כדי ללמוד איך לבדוק ולעקוב אחרי מצבי הרפליקה של הרפליקות האזוריות, אפשר לעיין במאמר בנושא מעקב אחרי מצבי הרפליקה של הדיסק.

מצבי רפליקציה של דיסקים אזוריים

בהתאם למצב של הרפליקות האזוריות הספציפיות, נפח האחסון של Regional Persistent Disk או נפח האחסון של Hyperdisk Balanced High Availability יכול להיות באחד ממצבי הרפליקציה הבאים:

  • שוכפל באופן מלא: העותקים בשני האזורים זמינים ומסונכרנים עם נתוני הדיסק העדכניים.
  • התעדכנות: הרפליקות האזוריות זמינות, אבל אחת מהן מתעדכנת עם נתוני הדיסק העדכניים.
  • ירידה ברמת השירות: אחד מהעותקים האזוריים הוא בסטטוס out of sync בגלל כשל או הפסקה זמנית בשירות.

אם סטטוס השכפול של הדיסק הוא catching up או degraded, אחת מהרפליקות האזוריות לא מתעדכנת בכל הנתונים. כל הפסקה זמנית בשירות במהלך הזמן הזה באזור של הרפליקה התקינה תגרום לדיסק להיות לא זמין עד שהאזור של הרפליקה התקינה ישוחזר.

כשנפח האחסון של Regional Persistent Disk או Hyperdisk Balanced High Availability מתעדכן,Google Cloud מתחיל לתקן את הרפליקה האזורית שמתעדכנת. ‫Google ממליצה להמתין עד שהעותק המשוכפל באזור המושפע יתעדכן עם הנתונים בדיסק, ואז הסטטוס שלו ישתנה ל-Synced. אחרי שהעותק האזורי עובר למצב מסונכרן, הסטטוס של הדיסק האזורי חוזר למצב Fully replicated.

אם הסטטוס של הדיסק האזורי הוא catching up או degraded למשך תקופה ממושכת והוא לא עומד בדרישות ה-RPO של הארגון, מומלץ ליצור תמונות מצב של הרפליקה הראשית באחת מהדרכים הבאות:

  • מפעילים צילום תמונות מצב מתוזמן.
  • יוצרים קובץ snapshot ידני של Persistent Disk אזורי או דיסק Hyperdisk Balanced High Availability.

אחרי שיוצרים snapshot, אפשר ליצור דיסק חדש מסוגRegional Persistent Disk או Hyperdisk Balanced High Availability באמצעות ה-snapshot הזה כמקור. הפעולה הזו תשחזר את התמונה לדיסק החדש. הדיסק החדש מתחיל גם הוא במצב של שכפול מלא עם שכפול נתונים תקין.

במאמר קביעת מצב השכפול של דיסקים מוסבר איך בודקים את מצב השכפול שלדיסקים לאחסון מתמיד באזור מסוים או של דיסקים מסוג Hyperdisk Balanced High Availability.

נקודת ביקורת לשחזור רפליקה

נקודת ביקורת לשחזור רפליקה היא מאפיין של דיסק שמייצג את הנקודה העדכנית ביותר בזמן שבה הדיסק היה עקבי במקרה של קריסה, אחרי שכבר בוצעה רפליקציה מלאה שלו. ‫Compute Engine יוצר באופן אוטומטי נקודת ביקורת לשחזור של רפליקה יחידה לכל דיסק אזורי, ומתחזק אותה. כשדיסק משוכפל במלואו, Compute Engine ממשיך לרענן את נקודת הבדיקה שלו בערך כל 15 דקות כדי לוודא שהיא תישאר מעודכנת. כשסטטוס השכפול של הדיסק הוא degraded, אפשר ליצור ב-Compute Engine קובץ snapshot רגיל מנקודת השחזור של העותק המשוכפל של הדיסק. קובץ ה-snapshot הרגיל שמתקבל כולל את הנתונים מהגרסה העדכנית ביותר של הדיסק ששוכפלה באופן מלא, שנוצרה באופן עקבי אחרי קריסה.

בתרחישים נדירים, כשהדיסק פגום, יכול להיות שגם הרפליקה האזורית שסונכרנה עם הנתונים העדכניים בדיסק תיכשל לפני שהרפליקה שלא מסונכרנת תתעדכן. לא תוכלו לצרף את הדיסק בכוח למופעי Compute באף אחד מהאזורים. הדיסק המשוכפל לא יהיה זמין יותר, ותצטרכו להעביר את הנתונים לדיסק חדש. במקרים כאלה, אם אין לכם תמונות מצב רגילות קיימות לדיסק, עדיין תוכלו לשחזר את נתוני הדיסק מהרפליקה הלא שלמה באמצעות תמונת מצב רגילה שנוצרה מנקודת השחזור של הרפליקה.

‫Compute Engine יוצר באופן אוטומטי נקודות ביקורת לשחזור רפליקות לכל דיסק אזורי מסוג Persistent Disk או לכל דיסק מסוג Hyperdisk Balanced High Availability שמחובר. אנחנו לא גובים מכם תשלום נוסף על יצירת נקודות הבדיקה האלה. עם זאת, אתם מחויבים על אחסון ועל מופעי מחשוב רלוונטיים כשאתם משתמשים בנקודות הבדיקה האלה כדי להעביר את הדיסק האזורי שלכם לאזורים פעילים.

מידע נוסף על שחזור נתונים מדיסק אזורי באמצעות נקודת ביקורת לשחזור רפליקה

יתירות כשל של דיסק אזורי

במקרה של הפסקת שירות בתחום (zone), אי אפשר לגשת לתחום והמכונה הווירטואלית של Compute בתחום הזה לא יכולה לבצע פעולות קריאה או כתיבה בדיסק שלה. כדי לאפשר למכונה להמשיך לבצע פעולות קריאה וכתיבה בדיסק האזורי, Compute Engine מאפשר העברה של נתוני הדיסק לאזור אחר שבו יש לדיסק רפליקה. התהליך הזה נקרא מעבר לגיבוי בעת כשל.

תהליך המעבר לגיבוי כולל ניתוק של הרפליקה האזורית מהמופע באזור המושפע, ולאחר מכן חיבור של הרפליקה האזורית למופע חדש באזור המשני. ‫Compute Engine משכפל את הנתונים בדיסק באופן סינכרוני לאזור המשני כדי להבטיח יתירות כשל מהירה במקרה של כשל ברפליקציה יחידה.

יתירות כשל באמצעות מישור בקרה אזורי ספציפי לאפליקציה

מישור הבקרה האזורי הספציפי לאפליקציה הוא לא Google Cloud שירות. כשמעצבים ארכיטקטורות של שירותים עם זמינות גבוהה, צריך לבנות מישור בקרה אזורי משלכם שספציפי לאפליקציה. מישור הבקרה של האפליקציה קובע לאיזה מופע צריך לצרף את הדיסק האזורי ואיזה מופע הוא המופע הראשי הנוכחי.

כשמזוהה כשל במופע הראשי או במסד הנתונים של הדיסק האזורי, מישור הבקרה האזורי הספציפי לאפליקציה של ארכיטקטורת שירות ה-HA יכול להתחיל אוטומטית יתירות כשל למופע ההמתנה באזור המשני. במהלך המעבר לגיבוי, מישור הבקרה האזורי שספציפי לאפליקציה מצרף מחדש את הדיסק האזורי למופע הגיבוי באזור המשני. לאחר מכן, Compute Engine מפנה את כל התנועה למכונה הזו על סמך אותות של בדיקת תקינות.

זמן האחזור הכולל של המעבר לגיבוי, לא כולל זמן זיהוי הכשל, הוא סכום זמני האחזור הבאים:

  • פחות מדקה לצירוף דיסק אזורי למכונה במצב המתנה
  • הזמן שנדרש לאתחול האפליקציה ולשחזור אחרי קריסה

מידע נוסף זמין במאמר בנושא הסבר על מישור הבקרה האזורי הספציפי לאפליקציה.

בדף אבני הבניין של התאוששות מאסון מוסבר על אבני הבניין שזמינות ב-Compute Engine.

מעבר לגיבוי בעקבות כשל באמצעות צירוף בכפייה

אחד היתרונות של Regional Persistent Disk ושל Hyperdisk Balanced High Availability הוא שבמקרה הלא סביר של הפסקה זמנית בשירות אזורית, אפשר לבצע יתירות כשל ידנית של עומס העבודה לאזור אחר. כאשר יש הפסקה זמנית בשירות באזור המקורי, אי אפשר להשלים את פעולת ניתוק הדיסק עד לשחזור הרפליקה האזורית הזו. במקרה כזה, יכול להיות שתצטרכו לצרף את הרפליקה המשנית האזורית למכונת חישוב חדשה בלי לנתק את הרפליקה הראשית האזורית מהמכונה הראשית. התהליך הזה נקרא צירוף בכפייה.

אם מופעלת מכונת חישוב באזור הראשי והיא לא זמינה, אפשר לצרף את הדיסק בכוח למכונה באזור המשני. כדי לבצע את המשימה הזו, צריך לבצע אחת מהפעולות הבאות:

  • מפעילים עוד מכונת חישוב באותו אזור שבו נמצא העותק של הדיסק האזורי שאתם מצרפים בכוח.
  • תחזוקה של מכונת מחשוב במצב המתנה פעיל באותו תחום. המתנה פעילה היא מכונה פעילה שזהה למכונה באזור הראשי. בשני המקרים יש את אותם נתונים.

המערכת של Compute Engine מבצעת את פעולת הצירוף הכפוי תוך פחות מדקה. היעד למשך ההתאוששות (RTO) הכולל תלוי לא רק ביתירות כשל של האחסון (הצירוף הכפוי של הדיסק האזורי), אלא גם בגורמים אחרים, כולל:

  • האם צריך ליצור קודם מכונה משנית
  • משך הזמן שנדרש למערכת הקבצים הבסיסית לזיהוי כונן שמחובר בזמן שהמחשב פועל
  • זמן השחזור של האפליקציות המתאימות

למידע נוסף על ביצוע מעבר לגיבוי בעת כשל של מופע Compute באמצעות force-attach, אפשר לעיין במאמר בנושא מעבר לגיבוי בעת כשל של דיסק אזורי באמצעות force-attach.

‫ Regional Persistent Disk ו- Hyperdisk Balanced High Availability מעדיפים את הזמינות של עומס העבודה, כלומר יש פשרות בהגנה על הנתונים במקרה הלא סביר ששני העותקים של הדיסק לא יהיו זמינים בו-זמנית. מידע נוסף זמין במאמר בנושא ניהול כשלים בדיסקים אזוריים.

מגבלות

בקטעים הבאים מפורטות המגבלות שחלות על Regional Persistent Disk ועל Hyperdisk Balanced High Availability.

מגבלות כלליות על דיסקים אזוריים

  • אפשר לצרף דיסק אחסון מתמיד אזורי רק למכונות וירטואליות שמשתמשות בסוגי המכונות הבאים: E2, N1, N2 ו- N2D.
  • אפשר לצרף Hyperdisk Balanced High Availability רק לסוגי מכונות נתמכים.
  • אי אפשר ליצור דיסק אחסון מתמיד (persistent disk) אזורי מקובץ אימג' של מערכת הפעלה, או מדיסק שנוצר מקובץ אימג' של מערכת הפעלה.
  • אי אפשר ליצור דיסק Hyperdisk Balanced High Availability על ידי שיבוט של דיסק אזורי. כדי ליצור דיסק Hyperdisk Balanced High Availability מדיסק אזורי, פועלים לפי השלבים במאמר שינוי דיסק אזורי לדיסק Hyperdisk Balanced High Availability.
  • כשמשתמשים במצב קריאה בלבד, אפשר לצרף דיסק אחסון מתמיד מאוזן אזורי לעד 10 מכונות וירטואליות.
  • הגודל המינימלי של דיסק מתמיד סטנדרטי אזורי הוא ‎200 GiB.
  • אפשר להגדיל את הגודל של Persistent Disk אזורי אושל נפח אחסון Hyperdisk Balanced High Availability, אבל אי אפשר להקטין אותו.
  • לדיסקים לאחסון מתמיד אזורי ולנפחי אחסון של Hyperdisk Balanced High Availability יש מאפייני ביצועים שונים מאלה של הדיסקים התואמים שלהם באזורים. מידע נוסף זמין במאמרים מידע על הביצועים של דיסק אחסון מתמיד (persistent disk) ומגבלות הביצועים של Hyperdisk Balanced High Availability.
  • אי אפשר להשתמש בנפח אחסון של Hyperdisk Balanced High Availability שנמצא במצב של גישה לכתיבה מרובה כדיסק אתחול.
  • אם יוצרים דיסק משוכפל על ידי שיבוט של דיסק אזורי, שני העותקים האזוריים לא מסונכרנים באופן מלא בזמן היצירה. אחרי היצירה, אפשר להשתמש בשיבוט של הדיסק האזורי תוך 3 דקות בממוצע. עם זאת, יכול להיות שתצטרכו לחכות עשרות דקות עד שהדיסק יגיע למצב של רפליקציה מלאה ו היעד להתאוששות מאסון (RPO) יהיה קרוב לאפס. איך בודקים אם הדיסק המשוכפל שוכפל במלואו
  • אי אפשר ליצור דיסקים אזוריים באזורי AI.

מגבלות של נקודות ביקורת לשחזור רפליקות

  • נקודת ביקורת לשחזור רפליקה היא חלק מהמטא-נתונים של המכשיר, ולא מוצגים בה נתונים מהדיסק. אפשר להשתמש בנקודת הבדיקה רק כמנגנון ליצירת תמונת מצב של הדיסק הפגום. אחרי שיוצרים את תמונת המצב באמצעות נקודת הבדיקה, אפשר להשתמש בתמונת המצב כדי לשחזר את הנתונים.
  • אפשר ליצור קובצי snapshot מנקודת שחזור של עותק משוכפל רק כשהדיסק פגום.
  • ‫Compute Engine מרענן את נקודת הבדיקה לשחזור העותק של הדיסק רק כשהדיסק משוכפל במלואו.
  • ‫Compute Engine שומר רק נקודת שחזור אחת של רפליקה לדיסק, ושומר רק את הגרסה העדכנית של נקודת השחזור הזו.
  • אי אפשר לראות את חותמות הזמן המדויקות של היצירה והרענון של נקודת ביקורת לשחזור רפליקה.
  • אפשר ליצור תמונת מצב מנקודת הבדיקה לשחזור הרפליקה רק באמצעות Compute Engine API.

המאמרים הבאים