ייצוא מטא-נתונים מ-Dataproc Metastore

בדף הזה מוסבר איך לייצא מטא-נתונים מ-Dataproc Metastore.

התכונה לייצוא מטא-נתונים מאפשרת לכם לשמור את המטא-נתונים בפורמט אחסון נייד.

אחרי ייצוא הנתונים, אפשר לייבא את המטא-נתונים לשירות אחר של Dataproc Metastore או ל-Hive Metastore (HMS) בניהול עצמי.

מידע על ייצוא מטא-נתונים

כשמייצאים מטא-נתונים מ-Dataproc Metastore, השירות מאחסן את הנתונים באחד מפורמטי הקבצים הבאים:

  • קבוצה של קובצי Avro שמאוחסנים בתיקייה.
  • קובץ dump יחיד של MySQL שמאוחסן בתיקייה ב-Cloud Storage.

Avro

ייצוא מבוסס Avro נתמך רק בגרסאות Hive 2.3.6 ו-3.1.2. כשמייצאים קובצי Avro, ‏ Dataproc Metastore יוצר קובץ <table-name>.avro לכל טבלה במסד הנתונים.

כדי לייצא קובצי Avro, שירות Dataproc Metastore יכול להשתמש בסוג מסד הנתונים MySQL או Spanner.

MySQL

ייצוא מבוסס MySQL נתמך בכל הגרסאות של Hive. כשמייצאים קבצי MySQL, ‏ Dataproc Metastore יוצר קובץ SQL יחיד שמכיל את כל פרטי הטבלה.

כדי לייצא קובצי MySQL, שירות Dataproc Metastore צריך להשתמש בסוג מסד הנתונים MySQL. סוג מסד הנתונים Spanner לא תומך בייבוא של MySQL.

לפני שמתחילים

התפקידים הנדרשים

כדי לקבל את ההרשאות שדרושות לייצוא מטא-נתונים אל Dataproc Metastore, אתם צריכים לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקידים המוגדרים מראש האלה מכילים את ההרשאות שנדרשות לייצוא מטא-נתונים אל Dataproc Metastore. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי לייצא מטא-נתונים אל Dataproc Metastore, נדרשות ההרשאות הבאות:

  • כדי לייצא מטא-נתונים: metastore.services.export בשירות המטא-חנות
  • כדי להשתמש באובייקט Cloud Storage לייצוא ב-MySQL וב-Avro, צריך להעניק לחשבון המשתמש ולסוכן השירות של Dataproc Metastore את ההרשאות הבאות: storage.objects.create בקטגוריה של Cloud Storage

יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

במאמר סקירה כללית על IAM ב-Dataproc Metastore יש מידע נוסף על תפקידים והרשאות ספציפיים ב-Dataproc Metastore.

ייצוא מטא-נתונים

לפני שמייצאים את המטא-נתונים, חשוב להביא בחשבון את השיקולים הבאים:

  • בזמן שהייצוא פועל, אי אפשר לעדכן שירות Dataproc Metastore – לדוגמה, לשנות את הגדרות התצורה. עם זאת, עדיין אפשר להשתמש בו לפעולות רגילות, כמו גישה למטא-נתונים שלו מאשכולות Dataproc או מאשכולות בניהול עצמי שמצורפים אליו.
  • תכונת ייצוא המטא-נתונים מייצאת רק מטא-נתונים. נתונים שנוצרו על ידי Apache Hive בטבלאות פנימיות לא משוכפלים בייצוא.

כדי לייצא מטא-נתונים משירות Dataproc Metastore, פועלים לפי השלבים הבאים.

המסוף

  1. במסוף Google Cloud , פותחים את הדף Dataproc Metastore:

    פתיחת Dataproc Metastore

  2. בדף Dataproc Metastore, לוחצים על שם השירות שרוצים לייצא ממנו מטא-נתונים.

    ייפתח הדף פרטי השירות.

    דף פרטי השירות
    דף הפרטים של שירות Dataproc Metastore
  3. בסרגל הניווט, לוחצים על ייצוא.

    הדף ייצוא מטא-נתונים ייפתח.

  4. בקטע יעד, בוחרים באפשרות MySQL או Avro.

  5. בשדה יעד URI, לוחצים על עיון ובוחרים את ה-URI של Cloud Storage שאליו רוצים לייצא את הקבצים.

    אפשר גם להזין את המיקום של ה-bucket בשדה הטקסט שמופיע. משתמשים בפורמט הבא: bucket/object או bucket/folder/object.

  6. כדי להתחיל את הייצוא, לוחצים על שליחה.

    בסיום הייצוא, הוא יופיע בטבלה בדף פרטי השירות בכרטיסייה ייבוא/ייצוא.

    כשהייצוא מסתיים, Dataproc Metastore חוזר אוטומטית למצב פעיל, בלי קשר להצלחת הייצוא.

‫CLI של gcloud

  1. כדי לייצא מטא-נתונים משירות, מריצים את הפקודה הבאה gcloud metastore services export gcs:

    gcloud metastore services export gcs SERVICE \
        --location=LOCATION \
        --destination-folder=gs://bucket-name/path/to/folder \
        --dump-type=DUMP_TYPE
    

    מחליפים את מה שכתוב בשדות הבאים:

    • SERVICE: השם של שירות Dataproc Metastore.
    • LOCATION: האזור שבו נמצא שירות Dataproc Metastore. Google Cloud
    • bucket-name/path/to/folder: תיקיית היעד ב-Cloud Storage שבה רוצים לאחסן את הייצוא.
    • DUMP_TYPE: סוג הגיבוי של מסד הנתונים שייווצר על ידי הייצוא. הערכים הקבילים כוללים את mysql ו-avro. ערך ברירת המחדל הוא mysql.
  2. מוודאים שהייצוא בוצע בהצלחה.

    כשהייצוא מסתיים, Dataproc Metastore חוזר אוטומטית למצב פעיל, בלי קשר להצלחת הייצוא.

REST

פועלים לפי ההוראות לשימוש ב-API כדי לייצא מטא-נתונים לשירות באמצעות APIs Explorer.

כשהייצוא מסתיים, השירות חוזר אוטומטית למצב פעיל, בלי קשר להצלחה או לכישלון של הייצוא.

צפייה בהיסטוריית הייצוא

כדי לראות את היסטוריית הייצוא של שירות Dataproc Metastore במסוףGoogle Cloud :

  1. במסוף Google Cloud , פותחים את הדף Dataproc Metastore.
  2. בסרגל הניווט, לוחצים על ייבוא/ייצוא.

    היסטוריית הייצוא מופיעה בטבלה היסטוריית הייצוא.

    בהיסטוריה מוצגים עד 25 הייצואים האחרונים.

מחיקה של שירות Dataproc Metastore מוחקת גם את כל היסטוריית הייצוא שמשויכת לו.

פתרון בעיות נפוצות

דוגמאות לבעיות נפוצות:

לקבלת עזרה נוספת בפתרון בעיות נפוצות, אפשר לעיין במאמר תרחישי שגיאה בייבוא ובייצוא.

המאמרים הבאים