הגנה על הנתונים באמצעות גיבויים

בחירת גרסה של מאמר העזרה:

בדף הזה מתוארת ארכיטקטורת ההפניה של AlloyDB Omni Standard Availability, שמספקת הגנה על נתונים באמצעות גיבויים.

תרחישים לדוגמה

ארכיטקטורת ההפניה הזו תומכת בתרחישים הבאים:

  • יש לכם מסדי נתונים שיכולים לעמוד בהשבתה מסוימת ובאובדן נתונים מאז הגיבוי האחרון.
  • אתם רוצים להגן על מסד הנתונים שלכם ב-AlloyDB Omni מפני שגיאות משתמש, השחתה או כשלים פיזיים ברמת מסד הנתונים (בניגוד לצילום מצב של שרת או תמונת מכונה וירטואלית).
  • אתם רוצים לשחזר את מסד הנתונים במקום או מרחוק, ואולי עד לנקודת זמן ספציפית.

איך פועלת ארכיטקטורת ההפניה

ארכיטקטורת ההפניה של Standard Availability כוללת גיבוי ושחזור של מסדי נתונים של AlloyDB Omni, בין אם הם פועלים כמופע עצמאי בשרת מארח, כמכונה וירטואלית (התקנת AlloyDB Omni) או באשכול Kubernetes (התקנת AlloyDB Omni ב-Kubernetes).

זמינות רגילה היא הטמעה בסיסית שמצמצמת את הצורך בחומרה או בשירותים נוספים, אבל ככל שמסד הנתונים גדול יותר, כך גדל היעד לשחזור (RTO). ככל שיש יותר נתונים לגיבוי, כך יידרש יותר זמן לשחזור ולשחזור של מסד הנתונים. אובדן הנתונים תלוי בסוג הגיבוי. אם רק קובצי הנתונים מגובים מעת לעת, כשמשחזרים את הנתונים, חלק מהם אובדים כי הם לא גובו מאז הגיבוי האחרון.

צמצום RPO

התכונה continuous archiving של PostgreSQL מאפשרת להשיג יעד נמוך להתאוששות מאסון (RPO) ולהפעיל שחזור מערכת מנקודה מסוימת בזמן באמצעות גיבויים. התהליך הזה כולל ארכיון של קובצי כתיבה מראש ביומן (WAL) וסטרימינג של נתוני WAL, יכול להיות למיקום אחסון מרוחק.

אם קובצי WAL מאורכבים רק כשהם מלאים או במרווחי זמן ספציפיים, אובדן מלא של מסד הנתונים (כולל קובצי WAL הנוכחיים) מגביל את השחזור לקובץ ה-WAL המאורכב האחרון, מה שאומר שיעד להתאוששות מאסון (RPO) צריך לקחת בחשבון אובדן נתונים פוטנציאלי. לעומת זאת, העברה רציפה של נתוני WAL ממזערת את הסיכון לאובדן נתונים.

כשמבצעים גיבויים רציפים, אפשר לבצע שחזור לנקודת זמן ספציפית. שחזור מערכת מנקודה מסוימת בזמן (PITR) מאפשר שחזור למצב שהיה לפני שגיאה, כמו מחיקה של טבלה בטעות או עדכונים שגויים של קבוצת נתונים. עם זאת, שיטת השחזור הזו משפיעה על היעד להתאוששות מאסון (RPO) אלא אם נעשה שימוש במסד נתונים עזר זמני.

שיטות לגיבוי

אתם יכולים להגדיר גיבויים ברמת AlloyDB Omni Postgres כך שיאוחסנו באחסון מקומי או באחסון מרוחק. אחסון מקומי עשוי להיות מהיר יותר לגיבוי ולשחזור, אבל אחסון מרחוק בדרך כלל חזק יותר לטיפול בכשלים כשמארח שלם או מכונה וירטואלית נכשלים.

גיבויים ב-non-Kubernetes

בהטמעות שאינן Kubernetes, אפשר לתזמן גיבויים באמצעות הכלים הבאים של PostgreSQL:

לחלופין, במסדי נתונים קטנים, אפשר לבצע גיבוי לוגי של מסד הנתונים (באמצעות pg_dump למסד נתונים יחיד או pg_dumpall לאשכול כולו). אפשר לשחזר באמצעות pg_restore.

גיבויים ב-Kubernetes באמצעות האופרטור AlloyDB Omni

ב-AlloyDB Omni שנפרס באשכול Kubernetes, אפשר להגדיר גיבויים רציפים באמצעות תוכנית גיבוי לכל אשכול מסד נתונים. מידע נוסף זמין במאמר גיבוי ושחזור ב-Kubernetes.

אתם יכולים לאחסן גיבויים של AlloyDB Omni באופן מקומי או מרחוק ב-Cloud Storage, כולל אפשרויות שסופקו על ידי ספק ענן כלשהו. מידע נוסף מופיע באיור 1, שבו מוצגים יעדי גיבוי אפשריים.

‫AlloyDB Omni עם אפשרויות גיבוי

איור 1. ‫AlloyDB Omni עם אפשרויות גיבוי.

אפשר לגבות את הנתונים באפשרויות אחסון מקומיות או מרוחקות. גיבויים מקומיים נוטים להיות מהירים יותר כי הם מסתמכים רק על תפוקת קלט/פלט, בעוד שלגיבויים מרחוק יש בדרך כלל זמן אחזור גבוה יותר ורוחב פס נמוך יותר ברשת. עם זאת, גיבויים מרחוק מספקים הגנה אופטימלית, כולל מפני כשלים אזוריים.

אפשר גם לפצל גיבויים מקומיים לאחסון מקומי או לנפח אחסון משותף. אפשרויות אחסון מקומי מושפעות מהיעדר אפשרויות תוכנית התאוששות מאסון (DR) כשמארח מסד נתונים נכשל, אבל נפח אחסון משותף מאפשר להעביר את האחסון הזה לשרת אחר ואז להשתמש בו לשחזור. המשמעות היא שנפח אחסון משותף יכול להציע RTO מהיר יותר.

בפריסות של אחסון מקומי ונפח אחסון משותף, יכול להיות שסוגי הגיבוי הבאים יתוזמנו או יבוצעו באופן ידני על פי דרישה:

  • גיבויים מלאים: גיבויים מלאים של כל קובצי מסד הנתונים שנדרשים לשחזור הנתונים.
  • גיבויים דיפרנציאליים: גיבויים של השינויים בקבצים מאז הגיבוי המלא האחרון.
  • גיבויים מצטברים: גיבויים של שינויים בקבצים מאז הגיבוי האחרון מכל סוג.

שחזור מערכת מנקודה מסוימת בזמן

גיבויים רציפים של קובצי ה-WAL (רישום מראש של פעולות כתיבה) של PostgreSQL תומכים בשחזור מערכת מנקודה מסוימת בזמן (PITR). אם אחרי אירוע כשל, קובצי ה-WAL שלמים ואפשר להשתמש בהם, אפשר להשתמש בקבצים האלה כדי לשחזר בלי אובדן נתונים.

כדי לשלוט בכתיבה של קובצי ה-WAL, אפשר להגדיר את הפרמטרים הבאים:

פרמטר תיאור

wal_writer_delay

ההגדרה קובעת באיזו תדירות כלי הכתיבה של WAL מרוקן את WAL לדיסק, אלא אם הכתיבה מופעלת מוקדם יותר על ידי טרנזקציה שמתבצעת באופן אסינכרוני. ערך ברירת המחדל הוא 200ms. הגדלת הערך הזה מפחיתה את תדירות הכתיבה, אבל עלולה להגדיל את כמות הנתונים שאובדים אם השרת קורס.

wal_writer_flush_after

ההגדרה קובעת כמה נתוני WAL יכולים להצטבר לפני שכותב ה-WAL יבצע כתיבה לדיסק. ערך ברירת המחדל הוא 1MB. אם הערך הוא אפס, הנתונים של WAL תמיד מועברים לכונן באופן מיידי.

synchronous_commit

ההגדרה קובעת אם הפעולה commit מחזירה תגובה למשתמש לפני שנתוני ה-WAL נמחקים מהדיסק. הגדרת ברירת המחדל היא on, שמבטיחה שהעסקה תהיה עמידה. במילים אחרות, הפעולה commit נכתבה בדיסק לפני שהוחזר למשתמש קוד הצלחה. אם הערך מוגדר ל-off, אז יש עד שלוש פעמים wal_writer_delay לפני שהטרנזקציה נכתבת לדיסק.

מעקב אחר השימוש ב-WAL

אפשר להשתמש בשיטות הבאות כדי לעקוב אחרי השימוש ב-WAL:

שיטת התצפית תיאור

pg_stat_wal

בתצוגה הרגילה הזו יש את העמודות wal_write ו-wal_sync, שבהן מאוחסנים הנתונים של מספר הכתיבות ב-WAL ומספר הסנכרונים ב-WAL. כשהפרמטר להגדרה track_wal_io_timing מופעל, גם הפרמטרים wal_write_time ו-wal_sync_time נשמרים. תמונות מצב קבועות של התצוגה הזו יכולות לעזור להציג את פעילות הכתיבה והסנכרון של WAL לאורך זמן.
pg_current_wal_lsn() הפונקציה הזו מחזירה את המיקום הנוכחי של מספר רצף היומן (lsn). כשמשייכים אותו לחותמת זמן ואוספים אותו כצילומי מצב לאורך זמן, אפשר לקבל את הערך של בייטים/שנייה של WAL שנוצר באמצעות הפונקציה pg_wal_lsn_diff(lsn1, lsn2). הפונקציה הזו היא מדד שימושי להבנת קצב העסקאות ורמת הביצועים של קובצי ה-WAL.

הזרמת נתוני WAL למיקום מרוחק

כשמשתמשים ב-Barman, אפשר גם להגדיר את נתוני ה-WAL כך שיזרמו בזמן אמת למיקום מרוחק, כדי להבטיח שלא יהיה אובדן נתונים או שיהיה אובדן נתונים מינימלי בשחזור. למרות הסטרימינג בזמן אמת, יש סיכוי קטן לאבד עסקאות מחויבות כי פעולות הכתיבה של הסטרימינג לשרת Barman המרוחק הן אסינכרוניות כברירת מחדל. עם זאת, אפשר להגדיר הזרמת WAL באמצעות מצב סינכרוני שמאחסן את ה-WAL ושולח תגובת סטטוס בחזרה למסד הנתונים של המקור. חשוב לזכור שהגישה הזו עלולה להאט את העסקאות אם הן צריכות להמתין לסיום הכתיבה לפני שהן ממשיכות.

לוחות זמנים לגיבויים

ברוב הסביבות, הגיבויים מתוזמנים בדרך כלל על בסיס שבועי. לוח הזמנים הבא הוא לוח זמנים שבועי אופייני של גיבויים:

  • יום ראשון: גיבוי מלא
  • יום שני, יום שלישי: גיבוי
  • יום רביעי: גיבוי דיפרנציאלי
  • יום חמישי, יום שישי: גיבוי מצטבר
  • שבת: גיבוי דיפרנציאלי

לפי לוח הזמנים הטיפוסי הזה, חלון שחזור מתגלגל של שבוע דורש נפח אחסון לעד שלושה גיבויים מלאים, בנוסף לגיבויים המצטברים או הדיפרנציאליים הנדרשים. הגישה הזו תומכת בשחזור במקרה של כשל שמתרחש במהלך הגיבוי המלא ביום ראשון, והשחזור של מסד הנתונים נדרש כדי להגיע ליום ראשון הקודם לפני תחילת הגיבוי.

כדי למזער את זמן ההתאוששות (RTO) עם פוטנציאל לנקודת התאוששות (RPO) גבוהה יותר, אפשר להפעיל מסדי נתונים נוספים במצב התאוששות רציף. התהליך כולל הפעלה מחדש של גיבויים ועדכון רציף של הסביבה המשנית על ידי ארכיון והפעלה מחדש של קובצי WAL חדשים. ה-RPO בפועל, שמשקף אובדן נתונים פוטנציאלי, תלוי בתדירות העסקאות, בגודל קובץ ה-WAL ובשימוש בסטרימינג של WAL.

שחזור בסביבה שאינה Kubernetes

בפריסות שאינן Kubernetes, כדי לשחזר מסד נתונים של AlloyDB Omni, צריך לעצור את קונטיינר Docker ואז לשחזר את הנתונים, או לשחזר את הנתונים למיקום אחר ולהפעיל מופע חדש של Docker באמצעות הנתונים המשוחזרים. אחרי שהקונטיינר מופעל מחדש, אפשר לגשת למסד הנתונים עם הנתונים ששוחזרו.

מידע נוסף על אפשרויות השחזור זמין במאמרים בנושא שחזור אשכול AlloyDB Omni באמצעות pgBackRest ושחזור אשכול AlloyDB Omni באמצעות Barman.

שחזור ב-Kubernetes באמצעות Operator

כדי לשחזר מסד נתונים ב-Kubernetes, האופרטור מציע שחזור לאותו אשכול ולמרחב שמות של Kubernetes, מגיבוי עם שם או משיבוט מנקודת זמן (PIT). כדי לשכפל מסד נתונים לאשכול Kubernetes אחר, משתמשים ב-pgBackRest. מידע נוסף זמין במאמרים בנושא גיבוי ושחזור ב-Kubernetes וסקירה כללית על שיבוט אשכול מסדי נתונים מגיבוי ב-Kubernetes.

הטמעה

כשבוחרים ארכיטקטורת הפניה לזמינות, חשוב לקחת בחשבון את היתרונות, המגבלות והחלופות הבאים.

יתרונות

  • קל לשימוש ולניהול, ומתאים למסדי נתונים לא קריטיים עם RTO/RPO גמישים.
  • נדרשת חומרה נוספת מינימלית
  • גיבויים תמיד נדרשים לתוכנית מלאה להתאוששות מאסון
  • אפשר לשחזר לכל נקודה בזמן בחלון השחזור

מגבלות

  • דרישות אחסון שעשויות להיות גדולות יותר מהמסד עצמו, בהתאם לדרישות השמירה.
  • ההתאוששות יכולה להיות איטית, וזמן ההתאוששות (RTO) עשוי להיות ארוך יותר.
  • עלול לגרום לאובדן נתונים מסוים, בהתאם לזמינות של נתוני ה-WAL הנוכחיים אחרי כשל במסד הנתונים, מה שעלול להשפיע לרעה על RPO.

חלופות

  • כדאי לשקול את ארכיטקטורת הזמינות המשופרת או פרימיום כדי לשפר את הזמינות ואת אפשרויות ההתאוששות מאסון.

המאמרים הבאים