גיבוי של שירות Dataproc Metastore

בדף הזה מוסבר איך ליצור גיבוי של שירות Dataproc Metastore.

גיבוי יוצר תמונת מצב של השירות, שומר את הגדרות התצורה הנוכחיות ואת כל המטא-נתונים המאוחסנים.

אחרי שיוצרים גיבוי, אפשר להשתמש בתכונה שחזור מגיבוי כדי לאכלס שירות חדש של Dataproc Metastore עם הנתונים שנשמרו בתמונת המצב.

לפני שמתחילים

התפקידים הנדרשים

כדי לקבל את ההרשאות שדרושות לגיבוי שירות Dataproc Metastore, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים:

  • כדי להעניק שליטה מלאה במשאבי Dataproc Metastore כדי להשלים גיבוי, צריך להשתמש באחת מהאפשרויות הבאות:
  • כדי להעניק גישת קריאה ושינוי למטא-נתונים ספציפיים של מסדי נתונים וטבלאות: Dataproc Metastore Metadata Operator (roles/metastore.metadataOperator) on the metadata service
  • כדי להשתמש באובייקט Cloud Storage שבו מאוחסנות גיבויים מתוזמנים: Cloud Storage Object User (roles/storage.objectUser) on the Dataproc Metastore service agent

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקידים המוגדרים מראש האלה מכילים את ההרשאות שנדרשות לגיבוי שירות Dataproc Metastore. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי לגבות שירות Dataproc Metastore, נדרשות ההרשאות הבאות:

  • כדי לגבות שירות מטא-נתונים: metastore.backups.create
  • כדי להשתמש באובייקט של Cloud Storage:
    • orgpolicy.policy.get
    • resourcemanager.projects.get
    • resourcemanager.projects.list
    • storage.managedFolders.create
    • storage.managedFolders.delete
    • storage.managedFolders.get
    • storage.managedFolders.list
    • storage.multipartUploads.*
    • storage.objects.create
    • storage.objects.delete
    • storage.objects.get
    • storage.objects.list
    • storage.objects.restore
    • storage.objects.update

יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

במאמר סקירה כללית על IAM ב-Dataproc Metastore יש מידע נוסף על תפקידים והרשאות ספציפיים ב-Dataproc Metastore.

שיקולים לגבי גיבוי

לפני שמריצים פעולת גיבוי, חשוב לשים לב לשיקולים הבאים:

  • לכל שירות Dataproc Metastore, אפשר ליצור ולאחסן עד שבעה גיבויים בכל פעם. אם תנסו ליצור יותר משבעה גיבויים, תהליך הגיבוי ייכשל. אם רוצים ליצור גיבוי נוסף, צריך קודם למחוק באופן ידני אחד מקובצי הגיבוי השמורים.
  • בזמן שפעולת גיבוי פועלת, אי אפשר לעדכן את שירות Dataproc Metastore – לדוגמה, אי אפשר לשנות את הגדרות התצורה. עם זאת, עדיין תוכלו להשתמש בשירות לפעולות רגילות, כמו גישה למטא-נתונים מאשכולות Dataproc או מאשכולות בניהול עצמי שמצורפים.
  • אתם יכולים ליצור גיבויים מתוזמנים שמופעלים במרווחי זמן שונים של cron, כמו כל יום.

יצירת גיבוי

כדי לגבות שירות Dataproc Metastore, מבצעים את השלבים באחת מהכרטיסיות הבאות:

המסוף

  1. במסוף Google Cloud , פותחים את הדף Dataproc Metastore:

    פתיחת Dataproc Metastore

  2. בדף Dataproc Metastore, לוחצים על שם השירות שרוצים לגבות.

    ייפתח הדף פרטי השירות.

    דף פרטי השירות
    איור 1. דף הפרטים של שירות Dataproc Metastore
  3. בחלק העליון של הדף, לוחצים על גיבוי.

    ייפתח הדף גיבוי.

  4. מזינים את שם הגיבוי.

  5. אופציונלי: מזינים תיאור של הגיבוי.

  6. כדי להתחיל את פעולת הגיבוי, לוחצים על גיבוי.

    חוזרים לדף Dataproc Metastore ומוודאים שהגיבוי של השירות בוצע בהצלחה.

    כשהגיבוי מסתיים, Dataproc Metastore חוזר אוטומטית למצב פעיל, בלי קשר להצלחת הגיבוי.

‫CLI של gcloud

  1. כדי לגבות שירות Dataproc Metastore, מריצים את הפקודה gcloud metastore services backups create הבאה:

    gcloud metastore services backups create BACKUP \
        --location=LOCATION \
        --service=SERVICE \
        --description=DESCRIPTION
    

    מחליפים את מה שכתוב בשדות הבאים:

    • BACKUP: המזהה או המזהה המלא של הגיבוי.
    • LOCATION: האזור שבו נמצא שירות Dataproc Metastore. Google Cloud
    • SERVICE: השם של שירות Dataproc Metastore.
    • DESCRIPTION: תיאור הגיבוי.
  2. מוודאים שהגיבוי של השירות בוצע בהצלחה.

    כשהגיבוי מסתיים, Dataproc Metastore חוזר אוטומטית למצב פעיל, בלי קשר להצלחת הגיבוי.

REST

פועלים לפי ההוראות לשימוש ב-API כדי לגבות מטא-נתונים משירות באמצעות APIs Explorer.

כשהגיבוי מסתיים, Dataproc Metastore חוזר אוטומטית למצב פעיל, בלי קשר להצלחת הגיבוי.

צפייה בהיסטוריית הגיבויים

כדי לראות את היסטוריית הגיבוי של שירות Dataproc Metastore במסוף Google Cloud :

  1. במסוף Google Cloud , פותחים את הדף Dataproc Metastore.
  2. בסרגל הניווט, לוחצים על גיבוי/שחזור.

    היסטוריית הגיבויים מופיעה בטבלה בקטע גיבויים.

    בהיסטוריה מוצגים עד 7 הגיבויים האחרונים.

    מחיקה של שירות Dataproc Metastore מוחקת גם את כל היסטוריית הגיבוי שמשויכת אליו.

מחיקת גיבוי

כדי למחוק גיבוי של Dataproc Metastore במסוף Google Cloud :

  1. במסוף Google Cloud , פותחים את הדף Dataproc Metastore.
  2. בסרגל הניווט, לוחצים על גיבוי/שחזור.
  3. מאתרים את הגיבוי שרוצים למחוק ולוחצים על לחצן ההגדרות.
  4. לוחצים על Delete.

תזמון גיבוי

אפשר לתזמן גיבויים כך שיפעלו במרווחי זמן שמשתמשים מגדירים במשימת cron, כולל הפעלה יומית, שבועית או חודשית. לוח זמנים של cron משתמש בפורמט מחרוזת unix-cron‏ (* * * * *), שהוא קבוצה של חמישה שדות בשורה, שמציינים מתי העבודה צריכה להתבצע.

לדוגמה, אפשר להגדיר מרווח זמן מותאם אישית ליצירת גיבוי מדי שבוע, כמו יצירת גיבוי בכל יום רביעי בשעה 14:00 לפי שעון החוף המערבי בארה"ב.

שיקולים לגבי גיבוי מתוזמן

  • בגיבויים מתוזמנים צריך לציין מיקום לגיבוי, שחייב להיות נתיב ב-Cloud Storage.
  • גיבויים מתוזמנים תמיד נוצרים בפורמט קובץ Avro.
  • כברירת מחדל, הגיבויים המתוזמנים מוגדרים לפי אזור הזמן UTC. אפשר לשנות את אזור הזמן כשיוצרים את הגיבוי בפעם הראשונה.
  • אפשר להגדיר גיבויים מתוזמנים שיפעלו במרווחי זמן של שעה, יום, שבוע או חודש. המרווח המינימלי שאפשר להגדיר הוא 4 שעות.

יצירת גיבוי מתוזמן

אפשר להגדיר לוחות זמנים לגיבוי כשיוצרים את השירות בפעם הראשונה, או להוסיף אותם בשלב מאוחר יותר כשמעדכנים את השירות.

כדי ליצור שירות Dataproc Metastore 2 עם גיבוי מתוזמן, משלימים את השלבים באחת מהכרטיסיות הבאות:

המסוף

  1. במסוף Google Cloud , פותחים את הדף Dataproc Metastore.

  2. בראש הדף Dataproc Metastore, לוחצים על הלחצן יצירה.

    ייפתח הדף Create service.

  3. בוחרים באפשרות Dataproc Metastore 2.

  4. בקטע גיבויים מתוזמנים, מעבירים את המתג למצב הפעלה.

  5. בקטע מיקום, בוחרים את המיקום ב-Cloud Storage שבו רוצים לאחסן את הגיבוי המתוזמן.

  6. אופציונלי: בקטע 'תזמון', בוחרים באפשרויות הבאות:

    1. בקטע חזרה, בוחרים את התדירות, למשל יומי או שבועי.
    2. בקטע בשעה, בוחרים את שעת החזרה, למשל 12:00.
    3. בקטע אזור זמן, בוחרים את אזור הזמן המתאים, כמו UTC-8.
  7. לגבי שאר אפשרויות ההגדרה של השירות, משתמשים בערכי ברירת המחדל שסופקו.

  8. לוחצים על שליחה.

‫CLI של gcloud

  1. כדי לתזמן גיבוי של שירות Dataproc Metastore, מריצים את הפקודה הבאה של gcloud metastore services backups create:

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION
    

    מחליפים את מה שכתוב בשדות הבאים:

    • SERVICE: המזהה או המזהה המלא של הגיבוי.
    • LOCATION: האזור שבו נמצא שירות Dataproc Metastore. Google Cloud
    • SCHEDULED_BACKUP_CRON: התדירות של הגיבוי, שצוינה בפורמט הזמן של cron. לדוגמה, ערך cron של 0 0 * * * מתזמן גיבוי יומי.
    • SCHEDULED_BACKUP_LOCATION: המיקום של הגיבוי ב-Cloud Storage. לדוגמה: gs://my-bucket/path/to/location.

    או

    אפשר גם לתזמן גיבוי על ידי שמירת הערכים הקודמים בקובץ תצורה:

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    מחליפים את מה שכתוב בשדות הבאים:

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE: נתיב לקובץ JSON שמכיל את ערכי התצורה של הגיבוי enabled,‏ cront_schedule,‏ time_zone ו-backup_location.

    בדוגמה הבאה מוצג קובץ תצורה של גיבוי שמאפשר גיבויים מתוזמנים, מגדיר את לוח הזמנים של הגיבויים לשעה, מציין את אזור הזמן כ-PST ומגדיר את מיקום הגיבוי כקטגוריה של Cloud Storage. אפשר לבחור אזורי זמן מתוך רשימת אזורי הזמן הנפוצים במסד הנתונים tz.

    {
    "enabled": true,
    "cron_schedule": "0 0 * * *",
    "time_zone": "PST",
    "backup_location": "gs://my-bucket/path/to/location"
    }
    

REST

פועלים לפי ההוראות ל-API כדי ליצור גיבוי מתוזמן באמצעות הכלי APIs Explorer.

עדכון של גיבוי מתוזמן

כדי לעדכן שירות Dataproc Metastore מדור 2 שהוגדר עם גיבוי מתוזמן, פועלים לפי השלבים באחת מהכרטיסיות הבאות:

המסוף

  1. במסוף Google Cloud , פותחים את הדף Dataproc Metastore.

  2. בדף Dataproc Metastore, לוחצים על השם של השירות שרוצים לתזמן גיבוי שלו.

  3. בקטע גיבויים מתוזמנים, מעבירים את המתג למצב מופעל.

  4. בקטע מיקום, בוחרים את המיקום ב-Cloud Storage שבו רוצים לאחסן את הגיבוי המתוזמן.

  5. אופציונלי: בקטע תזמון, בוחרים ערכים לשדות הבאים:

    1. בקטע חזרה, בוחרים את התדירות, למשל יומי או שבועי.
    2. בקטע בשעה, בוחרים את שעת החזרה, למשל 12:00.
    3. בקטע אזור זמן, בוחרים את אזור הזמן המתאים, כמו UTC-8.

‫CLI של gcloud

  1. כדי לתזמן גיבוי של שירות Dataproc Metastore, מריצים את הפקודה הבאה של gcloud metastore services backups update:

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION \
    

    מחליפים את מה שכתוב בשדות הבאים:

    • SERVICE: המזהה או המזהה המלא של הגיבוי המתוזמן.
    • LOCATION: האזור שבו נמצא שירות Dataproc Metastore. Google Cloud
    • SCHEDULED_BACKUP_CRON: התדירות של הגיבוי, שצוינה בפורמט הזמן של cron. לדוגמה, ערך cron של 0 0 * * * מתזמן גיבוי יומי.
    • SCHEDULED_BACKUP_LOCATION: מיקום הגיבוי המתוזמן ב-Cloud Storage. לדוגמה: gs://my-bucket/path/to/location.

    אפשר גם לעדכן גיבוי מתוזמן באמצעות הערכים הקודמים ששמורים בקובץ תצורה:

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    מחליפים את מה שכתוב בשדות הבאים:

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE: נתיב לקובץ JSON שמכיל את הגדרות הגיבוי.

    בדוגמה הבאה מוצג קובץ תצורת גיבוי שמשבית גיבוי מתוזמן.

    {
    "enabled": false,
    }
    

REST

פועלים לפי ההוראות לשימוש ב-API כדי לעדכן גיבוי מתוזמן באמצעות APIs Explorer.

צפייה בגיבוי מתוזמן

כדי לראות שירות Dataproc Metastore 2 שהוגדר עם גיבוי מתוזמן, מבצעים את השלבים באחת מהכרטיסיות הבאות:

המסוף

  1. במסוף Google Cloud , פותחים את הדף Dataproc Metastore.

  2. בחלק העליון של הדף, לוחצים על גיבוי.

    נפתח הדף גיבוי ומוצגים בו הגיבויים המתוזמנים. שימו לב שהגיבויים מאוחסנים בפועל בקטגוריה של Cloud Storage שציינתם בהגדרות של הגיבוי המתוזמן.

‫CLI של gcloud

  1. מריצים את הפקודה הבאה gcloud storage ls:

    gcloud storage ls gs://BUCKET_NAME/SERVICE/LOCATION
    

    מחליפים את מה שכתוב בשדות הבאים:

    • BUCKET_NAME: הנתיב לקטגוריה של Cloud Storage שבה מאוחסן הגיבוי המתוזמן שרוצים להציג.
    • SERVICE: המזהה או המזהה המלא של הגיבוי המתוזמן.
    • LOCATION: האזור שבו נמצא שירות Dataproc Metastore. Google Cloud

REST

פועלים לפי ההוראות ל-API כדי לראות גיבוי מתוזמן באמצעות APIs Explorer.

פתרון בעיות נפוצות

המאמרים הבאים