במאמר הזה מוסבר איך לסנכרן מטא-נתונים של Dataproc Metastore עם Data Catalog.
אחרי שמסנכרנים בין שני השירותים האלה, אפשר להשתמש ב-Data Catalog כדי לנהל את המטא-נתונים של Dataproc Metastore. לדוגמה, באמצעות Data Catalog אפשר לתייג ולחפש משאבים ספציפיים של Dataproc Metastore, כמו מסדי נתונים וטבלאות.
מהו Data Catalog
Data Catalog הוא שירות מנוהל וניתן להתאמה לעומס לניהול מטא-נתונים. הוא מספק תצוגה מאוחדת ומנגנוני תיוג למטא-נתונים טכניים ועסקיים.
מידע נוסף זמין במדריכים הבאים בנושא התכונות של Data Catalog:
לפני שמתחילים
התפקידים הנדרשים
כדי לקבל את ההרשאות שנדרשות לסנכרון מטא-נתונים של Dataproc Metastore עם Data Catalog, צריך לבקש מהאדמין להקצות לכם את תפקיד ה-IAM View synced Dataproc Metastore entries in Data Catalog (roles/metastore.metadataViewer) בפרויקט, בהתאם לעיקרון של הרשאות מינימליות.
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
זהו תפקיד שמוגדר מראש וכולל את ההרשאות שנדרשות לסנכרון המטא-נתונים של Dataproc Metastore עם Data Catalog. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי לסנכרן מטא-נתונים של Dataproc Metastore עם Data Catalog, נדרשות ההרשאות הבאות:
-
כדי לקבל מסדי נתונים של Dataproc Metastore:
metastore.databases.get -
כדי להציג רשימה של מסדי נתונים ב-Dataproc Metastore:
metastore.databases.list -
כדי לקבל טבלאות של Dataproc Metastore:
metastore.tables.get -
כדי להציג רשימה של טבלאות Dataproc Metastore:
metastore.tables.list
יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
מידע נוסף על תפקידים והרשאות ספציפיים ב-Dataproc Metastore זמין במאמר ניהול גישה באמצעות IAM.איך פועלות ההרשאות בין השירותים
הגישה ל-Data Catalog מוגבלת בהתאם להרשאות ברמת Dataproc Metastore. לגבי מטא-נתונים שמסונכרנים מ-Dataproc Metastore אל Data Catalog, הרשאות ה-IAM שצוינו ב-Dataproc Metastore חלות גם על המטא-נתונים ב-Data Catalog.
ב-Data Catalog נבדקות ההרשאות לכל מסד נתונים וטבלה של metastore בזמן הגישה, כך שרק משתמשים עם גישה לשירות Dataproc Metastore יכולים לראות את משאבי השירות המסונכרנים כרשומות ב-Data Catalog.
איך פועל הסנכרון של Data Catalog עם Dataproc Metastore
אתם יכולים להפעיל סנכרון של Dataproc Metastore עם Data Catalog כשאתם יוצרים או מעדכנים שירות Dataproc Metastore באמצעות מסוף Google Cloud . אפשר להשבית את הסנכרון באותו אופן.
אחרי שמפעילים את הסנכרון של Data Catalog, המטא-נתונים של מסדי הנתונים והטבלאות מסונכרנים אוטומטית מ-Dataproc Metastore אל Data Catalog.
המטא-נתונים הבאים מסתנכרנים עם Data Catalog:
- מכונות.
- מסדי נתונים, כולל שם ותיאור.
- טבלאות, כולל שם, תיאור וסכימה (עמודות עם תיאורים).
בטבלה הבאה מוצג מיפוי המשאבים בין Dataproc Metastore לבין Data Catalog:
| משאב Dataproc Metastore | משאב Data Catalog |
|---|---|
| Instance | קבוצת רשומות רשומה |
| מסד נתונים | הערך |
| טבלה | הערך |
| עמודה | סכימה |
לתשומת ליבכם
יכולות לחלוף עד 6 שעות לפני שהמטא-נתונים של Dataproc Metastore יסונכרנו באופן מלא עם Data Catalog. אחרי שהסנכרון הראשוני מסתיים, שינויים מצטברים מסונכרנים לפי דרישה (למשל, עדכונים של טבלה או מסד נתונים). אם סנכרון לפי דרישה נכשל, הסנכרון נכלל בהפעלה חוזרת של קבוצת פעולות שמתבצעת כל 6 שעות.
אם אתם חושדים שיש בעיה בסנכרון, כדאי לבדוק את יומני הפרסום של המטא-נתונים ב-Dataproc Metastore Cloud Logging באמצעות המסנן
textPayload=~".*Publish.*". מידע נוסף על גישה ליומנים זמין במאמר גישה ליומני עבודות ב-Logging.אם משביתים את הסנכרון של Data Catalog, המטא-נתונים מפסיקים להסתנכרן מ-Dataproc Metastore אל Data Catalog. עם זאת, מטא-נתונים שכבר סונכרנו יישארו בקטלוג הנתונים.
אם מוחקים מופע של Dataproc Metastore, גם המופע, מסד הנתונים והערכים בטבלה שמתאימים לו מוסרים מ-Data Catalog.
המטא-נתונים של Dataproc Metastore שמאוחסנים ב-Data Catalog עומדים בתקופות השמירה הרגילות של Google Cloud .
אין עלויות נוספות להפעלת הסנכרון של Data Catalog עם Dataproc Metastore.
יצירת שירות עם סנכרון ל-Data Catalog
הסנכרון עם Data Catalog מושבת כברירת מחדל.
כדי להפעיל סנכרון של קטלוג הנתונים בשירות חדש, פועלים לפי ההוראות הבאות.
המסוף
במסוף Google Cloud , פותחים את הדף Dataproc Metastore:
בראש הדף Dataproc Metastore, לוחצים על יצירה.
ייפתח הדף Create service.
בוחרים את הגרסה של Dataproc Metastore שרוצים להשתמש בה.
בקטע שילוב מטא-נתונים, לוחצים על סנכרון של קטלוג הנתונים.
לגבי שאר אפשרויות ההגדרה של השירות, משתמשים בערכי ברירת המחדל שסופקו. אפשר גם להגדיר את השירות לפי הצורך.
לוחצים על שליחה.
הפעלה או השבתה של סנכרון Data Catalog בשירות קיים
כדי להפעיל או להשבית את הסנכרון של Data Catalog בשירות קיים, פועלים לפי ההוראות הבאות.
המסוף
במסוף Google Cloud , פותחים את הדף Dataproc Metastore:
בדף Dataproc Metastore, לוחצים על השירות שרוצים לעדכן.
ייפתח הדף פרטי השירות של השירות הזה.
בכרטיסייה Configuration (הגדרות), לוחצים על Edit (עריכה).
ייפתח הדף עריכת השירות.
בקטע שילוב מטא-נתונים, מעבירים את המתג של סנכרון של קטלוג הנתונים למצב מופעל או מושבת.
לוחצים על שליחה.
חיפוש באמצעות Data Catalog
אפשר לחפש מטא-נתונים מסונכרנים של Dataproc Metastore באמצעות Data Catalog.
למרות שאין אפשרויות חיפוש בהתאמה אישית ל-Dataproc Metastore, יש כמה דרכים לחפש משאבים שונים של Dataproc Metastore, כולל:
- מופע Dataproc Metastore
- לפי השם המוצג
- פונקציות סטנדרטיות של Data Catalog – לדוגמה, באמצעות תגים.
- מסד נתונים
- לפי השם המוצג
- לפי תיאור
- לפי מופע Dataproc Metastore
- פונקציות סטנדרטיות של Data Catalog – לדוגמה, באמצעות תגים.
- Table
- לפי השם המוצג
- לפי תיאור
- לפי שם העמודה
- לפי תיאור העמודה
- לפי מסד נתונים
- לפי מופע Dataproc Metastore
- פונקציות סטנדרטיות של Data Catalog – לדוגמה, באמצעות תגים.
המאמרים הבאים
- סקירה כללית של Data Catalog
- יצירת שירות
- [Update and delete a service](/dataproc-metastore/docs/manage-service