עבודה עם Data Catalog

‫Data Catalog משתלב עם BigQuery על ידי קטלוג אוטומטי של מטא-נתונים על משאבי BigQuery כמו טבלאות, מערכי נתונים, תצוגות ומודלים. במסמך הזה מוסבר איך לחפש את המשאבים האלה, איך לראות את שרשרת המקור של הנתונים ואיך להוסיף תגים באמצעות Data Catalog.

חיפוש משאבים ב-BigQuery

כדי להשתמש ב-Data Catalog כדי לחפש מערכי נתונים, טבלאות ופרויקטים מסומנים בכוכב ב-BigQuery, פועלים לפי השלבים הבאים:

  1. נכנסים לדף Search של Data Catalog במסוף Google Cloud .

    לחיפוש Google

  2. בשדה חיפוש, מזינים שאילתה ולוחצים על חיפוש.

    חיפוש בקטלוג הנתונים מאפשר לכם למצוא נתונים בכל הפרויקטים והארגונים שלכם.

    כדי לשנות את פרמטרי החיפוש, משתמשים בחלונית מסננים. לדוגמה, בקטע מערכות, מסמנים את התיבה BigQuery. התוצאות מסוננות למערכות BigQuery.

אפשר לבצע חיפושים בסיסיים ב-Data Catalog דרך מסוףGoogle Cloud . מידע נוסף על חיפוש במסוף Google Cloud זמין במאמר פתיחה של מערך נתונים ציבורי.

שושלת נתונים

Data lineage הוא תכונה של Dataplex Universal Catalog שמאפשרת לעקוב אחרי תנועת הנתונים במערכות: מאיפה הם מגיעים, לאן הם מועברים ואילו טרנספורמציות מוחלות עליהם. אפשר לגשת לתכונה 'מקורות נתונים' ישירות מ-BigQuery.

הפעלת מעקב אחר מקורות נתונים בפרויקט BigQuery גורמת ל-Dataplex Universal Catalog לתעד באופן אוטומטי מידע על מקורות נתונים של טבלאות שנוצרו על ידי הפעולות הבאות:

לפני שמתחילים

בקטע הזה מפעילים את Data Lineage API ומעניקים תפקידים בניהול הזהויות והרשאות הגישה (IAM) שנותנים למשתמשים את ההרשאות הנדרשות לביצוע כל משימה שמתוארת במסמך הזה.

הפעלת מעקב אחר מקורות נתונים

  1. בדף לבחירת הפרויקט במסוף Google Cloud , בוחרים את הפרויקט שמכיל את המשאבים שרוצים לעקוב אחרי השושלת שלהם.

    כניסה לדף לבחירת הפרויקט

  2. מפעילים את Data Lineage API ואת Dataplex API.

    הפעלת ממשקי ה-API

התפקידים שצריך ב-IAM

פרטי שרשרת המקורות נרשמים באופן אוטומטי כשמפעילים את Data Lineage API.

כדי לקבל את ההרשאות שדרושות בשביל להציג את הגרפים של שרשרת היחסים, אתם צריכים לבקש מהאדמין לתת לכם את התפקידים הבאים ב-IAM:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.

מידע נוסף זמין במאמר בנושא תפקידים ב-Data lineage.

צפייה בתרשימי שושלת ב-BigQuery

כדי לראות את גרף שרשרת המקורות של הנתונים מ-BigQuery, פועלים לפי השלבים הבאים:

  1. במסוף Google Cloud , עוברים לדף BigQuery.

    כניסה ל-BigQuery

  2. בחלונית הימנית, לוחצים על כלי הניתוחים:

    כפתור מודגש לחלונית הסייר.

    אם החלונית הימנית לא מוצגת, לוחצים על הרחבת החלונית הימנית כדי לפתוח אותה.

  3. בחלונית Explorer מרחיבים את הפרויקט ואז לוחצים על Datasets.

  4. לוחצים על סקירה כללית > טבלאות ובוחרים טבלה.

  5. לוחצים על הכרטיסייה Lineage (היסטוריה).

    הכרטיסייה 'שושלת נתונים'.

    יוצג תרשים של שושלת הנתונים.

    תרשים של שושלת נתונים.

  6. אופציונלי: בוחרים צומת כדי לראות פרטים נוספים על הישויות או התהליכים שקשורים ליצירת מידע על מקור הנתונים.

מידע נוסף על שושלת נתונים זמין במאמר מידע על שושלת נתונים.

תגים ותבניות תגים

תגים מאפשרים לארגונים ליצור מטא-נתונים, לחפש אותם ולנהל אותם עבור כל רשומות הנתונים שלהם בשירות מאוחד.

בקטע הזה מוסברים שני מושגי מפתח ב-Data Catalog:

  • תגים מאפשרים לכם לספק הקשר לרשומה של נתונים על ידי צירוף של שדות מטא-נתונים מותאמים אישית.

  • תבניות תגים הן מבנים שאפשר לעשות בהם שימוש חוזר כדי ליצור תגים חדשים במהירות.

תגים

ב-Data Catalog יש שני סוגים של תגים: תגים פרטיים ותגים ציבוריים.

תגים פרטיים

תגים פרטיים מספקים אמצעי בקרת גישה מחמירים. תוכלו לחפש או להציג את התגים ואת רשומות הנתונים שמשויכות לתגים רק אם קיבלתם את הרשאות הצפייה הנדרשות בתבנית ליצירת תג הפרטית וברשומות הנתונים.

כדי לחפש תגים פרטיים בדף 'קטלוג הנתונים', צריך להשתמש בתחביר החיפוש tag: או במסנני החיפוש.

תגים פרטיים מתאימים לתרחישים שבהם צריך לאחסן מידע רגיש בתג ורוצים להחיל הגבלות גישה נוספות מעבר לבדיקה אם למשתמש יש הרשאות לצפייה ברשומה שתויגה.

תגים ציבוריים

תגים ציבוריים מספקים בקרת גישה פחות מחמירה לחיפוש ולצפייה בתג בהשוואה לתגים פרטיים. כל משתמש שיש לו את הרשאות הצפייה הנדרשות לרשומה של הזנת נתונים יכול לראות את כל התגים הציבוריים שמשויכים לרשומה. הרשאות צפייה בתגים ציבוריים נדרשות רק כשמבצעים חיפוש ב-Data Catalog באמצעות התחביר tag: או כשמציגים תבנית ליצירת תג לא מצורפת.

תגיות ציבוריות תומכות גם בחיפוש פשוט וגם בחיפוש עם פרדיקטים בדף החיפוש של Data Catalog. כשיוצרים תבנית ליצירת תג, האפשרות ליצור תבנית ליצירת תג ציבורית היא ברירת המחדל והאפשרות המומלצת במסוף Google Cloud .

לדוגמה, נניח שיש לכם תבנית תגים ציבורית בשם employee data שבאמצעותה יצרתם תגים לשלושה רשומות נתונים בשם Name, Location ו-Salary. מבין שלוש רשומות הנתונים, רק חברים בקבוצה ספציפית בשם HR יכולים לראות את רשומת הנתונים Salary. לשתי רשומות הנתונים האחרות יש הרשאות צפייה לכל העובדים בחברה.

אם עובד שלא נכלל בקבוצה HR משתמש בדף החיפוש של Data Catalog ומחפש את המילה employee, בתוצאת החיפוש יוצגו רק רשומות הנתונים Name ו-Location עם התגים הציבוריים המשויכים.

תגים ציבוריים שימושיים למגוון רחב של תרחישים. תגים ציבוריים תומכים בחיפוש פשוט ובחיפוש עם פרדיקטים, ותגים פרטיים תומכים רק בחיפוש עם פרדיקטים.

תבניות ליצירת תגים

כדי להתחיל לתייג מטא-נתונים, קודם צריך ליצור תבנית תגים אחת או יותר. תבנית ליצירת תג יכולה להיות תבנית ליצירת תג ציבורית או פרטית. כשיוצרים תבנית ליצירת תג, האפשרות ליצור תבנית ליצירת תג ציבורית היא ברירת המחדל והאפשרות המומלצת במסוף Google Cloud . תבנית ליצירת תג היא קבוצה של צמדי מפתח/ערך של מטא-נתונים שנקראים שדות. החזקה של קבוצת תבניות דומה להחזקה של סכימת מסד נתונים למטא-נתונים.

אפשר ליצור תגים לפי נושאים. לדוגמה:

  • תג data governance עם שדות לבעל סמכות בנושא נתונים, תאריך שמירה, תאריך מחיקה, פרטים אישיים מזהים (כן או לא), סיווג נתונים (ציבורי, סודי, רגיש, רגולטורי)
  • תג data quality עם שדות לבעיות באיכות, תדירות עדכונים ומידע על SLO
  • תג data usage עם שדות למשתמשים מובילים, שאילתות מובילות וממוצע משתמשים יומי

לאחר מכן תוכלו לשלב בין התגים, ולהשתמש רק בתגים שרלוונטיים לכל נכס נתונים ולצרכים העסקיים שלכם.

כדי לעזור לכם להתחיל, Data Catalog כולל גלריה של תבניות תגים לדוגמה שממחישות תרחישי שימוש נפוצים בתיוג. אפשר להיעזר בדוגמאות האלה כדי להבין את היתרונות של תיוג, לקבל השראה או כנקודת התחלה ליצירת תשתית תיוג משלכם.

כדי להשתמש בגלריית תבניות ליצירת תג:

  1. במסוף Google Cloud , נכנסים לדף תבניות ליצירת תג בקטלוג האוניברסלי של Dataplex.

    מעבר אל Tag templates

  2. לוחצים על יצירת תבנית ליצירת תג.

    גלריית התבניות מוצגת כחלק מהדף יצירת תבנית.

אחרי שבוחרים תבנית מהגלריה, אפשר להשתמש בה כמו בכל תבנית ליצירת תג אחרת. אתם יכולים להוסיף או למחוק מאפיינים ולשנות כל דבר בתבנית כדי להתאים אותה לצרכים של העסק. לאחר מכן תוכלו לחפש את השדות והערכים של התבנית באמצעות Data Catalog.

מידע נוסף על תגים ותבניות תגים זמין במאמר תגים ותבניות תגים.

משאבים אזוריים

כל תבנית ליצירת תג ותג מאוחסנים בGoogle Cloudאזור מסוים. אפשר להשתמש בתבנית ליצירת תג כדי ליצור תג בכל אזור, כך שלא צריך ליצור עותקים של התבנית אם יש לכם רשומות מטא-נתונים שפזורות בכמה אזורים.