מידע על המחשה חזותית של שרשרת היוחסין

שושלת הנתונים עוזרת לכם להבין איך הנתונים עוברים במערכות שלכם. היא עושה זאת על ידי מעקב אחר הקשרים בין נכסי הנתונים לבין התהליכים שמשנים אותם. אפשר לראות את פרטי השושלת האלה כתרשימים וכרשימות במסוף Google Cloud .

במסמך הזה מופיעה סקירה כללית של מודל המידע של שרשרת מקורות הנתונים, פרטים על רמת הגרנולריות של שרשרת מקורות הנתונים ברמת הטבלה וברמת העמודה, והוראות לשימוש בתצוגות גרף ורשימה כדי לעיין בשרשרת מקורות הנתונים.

מודל מידע של שושלת נתונים

השם Lineage (מקור) מתייחס לתיעוד של נתונים שעוברים טרנספורמציה ממקורות ליעדים. ה-Data Lineage API אוסף את המידע הזה ומארגן אותו במודל נתונים היררכי שמשתמש במושגים של תהליכים, הפעלות ואירועים.

  • תהליך: הגדרה של התאמת נתונים.
  • הרצה: ביצוע של תהליך.
  • אירוע: רשומה של תנועת נתונים במהלך הפעלה.

עיבוד

תהליך הוא הגדרה של פעולת טרנספורמציה של נתונים במערכת ספציפית. ב-BigQuery, תהליך הוא עבודה מסוג עבודה נתמך. כל ההרצות של אותה שאילתת SQL מקושרות לתהליך יחיד, כך שאפשר לעקוב אחרי כל מקרה שבו נעשה שימוש בלוגיקה ספציפית של טרנספורמציה.

לדוגמה, שאילתת ה-SQL הבאה היא תהליך. השאילתה הזו יוצרת טבלה על ידי ספירת המספר הכולל של הנסיעות לכל ספק משתי טבלאות מקור.

  CREATE TABLE `dataplex-docs.data_lineage_demo.total_green_trips_22_21`
  AS
  SELECT
      vendor_id,
      COUNT(*) AS number_of_trips
  FROM
      (
          SELECT vendor_id
          FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2022`
          UNION ALL
          SELECT vendor_id
          FROM `dataplex-docs.data_lineage_demo.nyc_green_trips_2021`
      )
  GROUP BY
      vendor_id;

הפורמט של שם משאב REST לתהליך הוא projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID.

לדוגמה: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6

מידע נוסף על משאב process זמין במאמר הפניה למשאב Process.

ריצה

הרצה היא ביצוע יחיד של תהליך. יכולות להיות כמה הרצות לתהליך.

כל הרצה היא פעולה ייחודית שמאופיינת על ידי startTime,‏ endTime ומצב סופי, כמו COMPLETED,‏ FAILED או ABORTED.

לדוגמה, אם מריצים את שאילתת ה-SQL מהקטע תהליך בשעה 9:00 בבוקר, נוצרת הרצה ספציפית. אם מריצים את אותה שאילתה שוב בשעה 10:00, נוצרת הרצה חדשה ונפרדת. שתי ההרצות מקושרות לאותו תהליך אב.

הפורמט של שם משאב REST להרצה מראה שהיא צאצא של תהליך: projects/PROJECT_NUMBER/locations/LOCATION/processes/PROCESS_ID/runs/RUN_ID.

לדוגמה: projects/123456789123/locations/us/processes/sh-0548bbf4ff3c8072a6c7372ba1acafb6/runs/83dd03a51cd2ac80f465c9e267a950b1

מידע נוסף על משאב run זמין במאמר הפעלת הפניה למשאב.

אירוע

אירוע מייצג נקודת זמן שבה טרנספורמציה של נתונים מעבירה נתונים בין ישות מקור לישות יעד. אירוע הוא רשומה מפורטת של תנועת נתונים ספציפית שמקשרת בין טבלאות מקור ויעד להרצה ספציפית. לאירוע יכולים להיות גם כמה מקורות ויעדים.

לדוגמה, אם ההרצה מבצעת את שאילתת ה-SQL שמוסברת בקטע Process, אירוע של שושלת מתעד את השימוש בטבלאות המקור nyc_green_trips_2021 ו-nyc_green_trips_2022 כדי ליצור את טבלת היעד total_green_trips_22_21.

אירוע של שושלת מכיל רשימה של קישורים שמגדירים את המקור והיעד. האירועים משמשים ליצירת תרשימי שושלת. Google Cloud הגרפים האלה של שרשרת האירועים מוצגים במסוף, אבל לא מוצגים בו אירועים בודדים באופן ישיר. אתם יכולים ליצור, לקרוא ולמחוק אירועים באמצעות Data Lineage API, אבל לא לעדכן אותם.

כל קישור בתוך אירוע מגדיר נתיב יחיד של זרימת נתונים מישות מקור לישות יעד. ישות היא הפניה לנכס נתונים, כמו טבלה ב-BigQuery, והיא מזוהה באמצעות שם מוגדר במלואו (FQN). אירוע יחיד יכול להכיל כמה קישורים, וזה נפוץ בפעולות כמו צירופי טבלאות שבהן כמה מקורות תורמים ליעד אחד.

פרטים על האופן שבו אירועים תומכים בתיעוד מקורות נתונים ברמת העמודה מופיעים במאמר בנושא תיעוד מקורות נתונים ברמת העמודה.

רמת הפירוט של שרשרת המקור

היסטוריית הנתונים מאפשרת לעקוב אחרי המקור ונתיב השינוי של הנתונים ברמת הטבלה וברמת העמודה.

‫Table-level lineage (היסטוריית השינויים ברמת הטבלה)

השורה של הטבלה מספקת סקירה כללית של צינורות הנתונים, ומציגה את הקשרים בין טבלאות שלמות. אפשר להשתמש בנתוני שושלת ברמת הטבלה למשימות ברמת המאקרו, כמו:

  • גילוי נתונים. אנליסט שיוצר לוח בקרה חדש יכול להשתמש בנתוני השושלת ברמת הטבלה כדי לעקוב אחרי טבלת סיכום עד למקורות שלה, ולוודא שהנתונים מגיעים ממסד נתונים מהימן.

  • תכנון ההעברה אדמין של מסד נתונים שמתכנן להעביר מסד נתונים מרכזי יכול להשתמש בנתוני השושלת ברמת הטבלה כדי לזהות כל דוח ומרכז בקרה במורד הזרם שתלויים בו.

  • ביקורת ומשילות. אחראי על ניהול הנתונים יכול להשתמש בתיעוד המקור ברמת הטבלה וברמת העמודה כדי לבדוק איך נתונים מטבלה שמכילה פרטים אישיים מזהים (PII) זורמים דרך צינור.

היסטוריית השינויים ברמת העמודה

השילוב של נתוני שושלת ברמת העמודה מספק תצוגה מפורטת יותר, כי הוא מאפשר לעקוב אחרי זרימת הנתונים בין עמודות נפרדות. בתצוגה הזו, הקישורים באירוע של שושלת הנתונים מייצגים את הקשר בין עמודת מקור לעמודת יעד. לכל אחד מהקישורים ברמת העמודה יש סוג תלות שמתאר את השינוי:

  • Exact copy: הערכים מועתקים בין עמודות.

  • Other: סוגים אחרים של תלות בין עמודות.

אפשר להשתמש בתיעוד המקור ברמת העמודה למשימות כמו:

  • ניתוח שורש הבעיה. אם אנליסט נתונים מוצא ערך שגוי בעמודה, הוא יכול להשתמש בתיעוד המקור של העמודה כדי לעקוב אחרי הערך עד לעמודות המקור ולמצוא את שורש הבעיה.

  • ניתוח השפעות. לפני שמהנדס מערכות מידע מוציא משימוש עמודה, הוא יכול להשתמש בתיעוד המקור של העמודה כדי למצוא כל עמודה במורד הזרם שתלויה בה.

  • אימות של מקורות נתונים למדדים. אנליסט נתונים יכול להשתמש בשושלת נתונים ברמת העמודה כדי לזהות אילו עמודות מקור משמשות לחישוב מדד, בלי לפענח שאילתת SQL מורכבת.

השבחת נתונים ברמת העמודה נאספת באופן אוטומטי עבור סוגי המשימות הבאים ב-BigQuery:

תצוגות של שרשרת היוחסין במסוף Google Cloud

במסוף Google Cloud , אפשר לקיים אינטראקציה עם נתוני שרשרת המקורות בשתי דרכים: אפשר לעיין בתרשים שרשרת המקורות בכמה אזורים זמינים, או להשתמש בחלונית Lineage explorer כדי לקבל תצוגה ממוקדת יותר באזור ספציפי. אפשר גם לעבור בין תצוגת הגרף לתצוגת הרשימה כדי לנתח את זרימת הנתונים ברמות פירוט שונות.

תצוגות של שושלת הנתונים זמינות רק לרשומות של Dataplex Universal Catalog, לנכסי BigQuery ולמשאבי Vertex AI (מודלים, מערכי נתונים, תצוגות של מאגר תכונות וקבוצות תכונות).

כדי לראות את התצוגות השונות שמוסברות בדף הזה, אפשר לעיין במאמר בנושא שימוש בתיעוד מקורות הנתונים עם מערכות Google Cloud .

תצוגת תרשים של שרשרת היוחסין

בתצוגת תרשים מוצגים באופן חזותי זרימת נכסי הנתונים והקשרים בין מערכות ואזורים, כדי לעזור לכם להבין את ארכיטקטורת הנתונים, לעקוב אחרי המקורות והיעדים ולזהות דפוסים. תרשימי שושלת הנתונים האלה נוצרים על ידי שירות Data Lineage API עבור רשומה ספציפית ב-Dataplex Universal Catalog. הם מציגים איך הנתונים משתנים לאורך זמן, ומציגים את הזרימות במעלה הזרם, במורד הזרם או בשני הכיוונים מרשומת שורש נבחרת.

‫Data Lineage API מקבל באופן אוטומטי מידע על נכסים ממערכות נתמכות וממקורות מותאמים אישית באמצעות קריאות ל-API.

הרכיבים העיקריים בתרשים מתוארים כך:

  • צמתים. ייצוג של ישויות הנתונים. בתצוגה ברמת הטבלה, הצומת מציג את שם הטבלה והעמודות שלה. בתצוגה ברמת העמודה, כל צומת מייצג טבלה ועמודה ספציפיות.

  • קצוות. הקווים שמחברים בין הצמתים ומייצגים את התהליכים שמתרחשים ביניהם. המראה של קצה תלוי בתצוגת הקשר:

    • בתצוגה ברמת הטבלה, לקצוות יש סמלים שמציינים טרנספורמציות של נתונים.
    • בתצוגה ברמת העמודה, לקצוות יש תוויות שמציינות את השינויים בנתונים. לדוגמה, תווית של קצה עשויה להיות Exact copy כדי לתאר איך עמודת מקור הועתקה לעמודת יעד.
  • עיבוד סמלים ותוויות. מופיעים בקצוות כדי לספק מידע נוסף על השינוי.

    • סמלים. לייצג את תהליך השינוי. כשבודקים את הגרף באופן ידני, הסמלים בקצוות מייצגים את מערכת המקור של התהליך (לדוגמה, BigQuery או Vertex AI). אם יש כמה תהליכים, מוצג סמל של 'כמה תהליכים'. אם מערכת המקור של התהליך לא ידועה, מוצג סמל של גלגל שיניים. כשמחילים מסננים, סמל גלגל השיניים משמש לכל התהליכים.
    • תוויות. בתצוגת שושלת הנתונים ברמת העמודה, התווית מתארת את סוג התלות בין העמודות: Exact copy או Other.

עיון ידני בגרף של שרשרת המקור

כשפותחים את הכרטיסייה Lineage, רואים את תצוגת Graph שמוגדרת כברירת מחדל. תצוגת ברירת המחדל מספקת סקירה כללית ברמה גבוהה של המערכות והאזורים, עם הרחבה ידנית מצטברת של התרשים, שמאפשרת לטעון חמישה צמתים בכל פעם. סמלי תהליך בקצוות מייצגים את מערכת המקור או מציינים תהליכים מרובים.

תצוגת ברירת מחדל של תרשים השתלשלות שמציג נכסי נתונים שמקושרים זה לזה.
תצוגת ברירת המחדל של תרשים השושלת

החלת מסננים לתצוגת שושלת ממוקדת

כדי לסנן נתוני שושלת לצורך ניתוח ממוקד באזור מסוים, משתמשים בחלונית Lineage explorer. ריכזנו כאן כמה קריטריונים שיעזרו לכם לעבור לתצוגה ממוקדת:

  • שם העמודה: סינון של שרשרת המקור לפי שם העמודה כדי לראות פרטים ברמת העמודה.
  • כיוון: הצגת שושלת במעלה הזרם או במורד הזרם, או שניהם.
  • טווח זמן: סינון של שרשרת מקורות הנתונים לפי שעת התחלה או שעת סיום ספציפיות.
  • סוג התלות: סינון של שושלת הנתונים ברמת העמודה לפי סוג התלות. דוגמאות לאפשרויות זמינות: All או Exact copy.
חלונית הכלי לבדיקת מקורות נתונים שמציגה מסננים למקורות נתונים ברמת העמודה, כיוון וטווח זמן.
החלונית Lineage Explorer

התצוגה הממוקדת מרחיבה אוטומטית את הגרף עד 3 רמות, וטוענת את כל השושלת שתואמת לקריטריוני הסינון. כלי ה-Lineage Explorer מאחזר עד 10 רמות של גרף השושלת, אבל כברירת מחדל מוצגות רק 3 הרמות הראשונות. כדי להרחיב את התרשים ולראות את הרמות הנותרות, לוחצים על החצים.

התצוגה הממוקדת תומכת בתיעוד מקורות נתונים ברמת הטבלה וברמת העמודה, כולל תצוגה חזותית של הנתיב מכל צומת שנבחר בחזרה לצומת הבסיס. בתצוגה הממוקדת הזו, סמל גלגל שיניים כללי משמש לכל התהליכים.

תצוגה ממוקדת של תרשים ההשתלשלות שבה מוצגים נכסי נתונים מסוננים.
תצוגה ממוקדת של גרף שושלת ברמת הטבלה

כדי לראות את היסטור השינויים ברמת העמודה, אפשר להשתמש באחת מהשיטות הבאות:

  • בתצוגת תרשים ממוקדת, לוחצים על סמל העמודה בטבלה כדי לעבור לתיעוד מקורות נתונים ברמת העמודה.

    הסמל שמשמש למעבר לנתוני שושלת ברמת העמודה.
    סמל העמודה
  • בתצוגת תרשים או בתצוגת תרשים ממוקדת, מזינים שם של עמודה בחלונית Lineage explorer.

תרשים של שושלת שמציג את הקשרים ברמת העמודה בין טבלאות.
תצוגת שושלת ברמת העמודה

כדי להסיר את כל המסננים ולחזור לתצוגת ברירת המחדל, לוחצים על איפוס.

פרטי הצומת

כדי לראות את הפרטים של צומת, לוחצים על הצומת. מופיעה חלונית צדדית עם מידע מפורט על נכס הנתונים שנבחר. לדוגמה, בתצוגת שושלת ברמת הטבלה, לחיצה על צומת מציגה מידע כמו השם המוגדר במלואו של הנכס, הסוג שלו ומאפיינים רלוונטיים אחרים.

חלונית הפרטים של צומת שנבחר בתרשים השושלת.
פרטי הצומת

ביקורת והיסטוריה של הפעלות

תרשים שושלת מלא הוא תוצאה של הרצות של הרבה משימות שונות, כאשר כל משימה יוצרת קישור ספציפי בתרשים. רישום של כמה הפעלות מתבצע כריצות חדשות, אבל לא משנה את המראה הסטטי של התרשים.

כדי לראות את הפרטים של כל אחת מההרצות האלה, לוחצים על קצה עם תהליך בגרף. בחלונית שאילתה שמופיעה, לוחצים על הכרטיסייה הפעלות.

החלונית Query (שאילתה) שבה מוצגות הכרטיסיות Details (פרטים) ו-Runs (הפעלות).
חלונית השאילתה

בדיקת לוגיקת הטרנספורמציה

כדי להבין את הלוגיקה העסקית של טרנספורמציה בלי לחפש את הקוד, אפשר לראות את שאילתת ה-SQL המדויקת שהופעלה. כדי לראות את קוד ה-SQL, לוחצים על קצה עם תהליך בגרף. בחלונית הצדדית שמופיעה, לוחצים על הכרטיסייה פרטים.

המחשה של נתיב השושלת

המחשה של נתיב השושלת עוזרת לכם לעקוב אחרי הנתיב מכל צומת שנבחר בתרשים בחזרה אל רשומת השורש. כשבוחרים צומת ולוחצים על הצגת הנתיב, התרשים מדגיש רק את הצמתים והתהליכים שיוצרים את נתיב השושלת הישיר אל רשומת הבסיס.

כדי לראות את הוויזואליזציה של נתיב השושלת, בחלונית Lineage explorer, מחילים מסנן כדי ליצור תצוגה ממוקדת של Graph. לאחר מכן, בתצוגה הממוקדת תרשים, בוחרים צומת. בחלונית הפרטים של הצומת שנבחר, לוחצים על הצגת הנתיב.

המחשה של נתיב שרשרת היוחסין זמינה לשרשרת יוחסין ברמת הטבלה וברמת העמודה. אפשר גם להשתמש בהצגה חזותית של נתיב השושלת בתצוגת רשימה.

לחצן להמחשת נתיב השושלת בתצוגת תרשים השושלת ברמת העמודה.
לחצן להצגה חזותית של נתיב השושלת בתצוגת תרשים השושלת ברמת העמודה

תצוגת רשימה של נתוני השושלת

בתצוגה List מוצג ייצוג טבלאי ומובנה של שרשרת המקור, שמתעדכן באופן אוטומטי עם התצוגה Graph. הוא מאפשר מיון, סינון והורדה של נכסי נתונים. התצוגה הזו מתאימה במיוחד לניתוח של קשרים בין מקור ליעד, לתיאור מפורט של הנכסים הרלוונטיים ולייצוא של נתוני השתלשלות.

התצוגה רשימה זמינה גם עבור שושלת ברמת הטבלה וגם עבור שושלת ברמת העמודה. אפשר לעבור בין התצוגות המפורטות והפשוטות הבאות של הרשימה.

  • תצוגת רשימה פשוטה: התצוגה הזו שימושית לקבלת רשימה ייחודית ומצומצמת של כל הנכסים שמשתתפים בשרשרת המקור. העמודות, כמו מערכת, פרויקט, ישויות, שם מוגדר במלואו (FQN), כיוון ועומק, עוזרות לכם לראות את כל נכסי הנתונים במוצא, איפה הם נמצאים, מה המקור המקורי שלהם והמרחק שלהם מהנכס המרכזי שמנותח. הוא אידיאלי לקבלת סקירה כללית ברמה גבוהה של כל הישויות שמשתתפות בהעברת הנתונים. זו תצוגת ברירת המחדל.

  • תצוגת רשימה מפורטת: התצוגה הזו מיועדת לניתוח של קשרי גומלין בין מקור ליעד. העמודות הנפרדות מקור ויעד מאפשרות לכם לראות כל קישור ספציפי להמרת נתונים. התצוגה הזו מתאימה במיוחד למשימות שדורשות הבנה מעמיקה של אופן העברת הנתונים בין זוגות ספציפיים של נכסים, כמו ביקורת על זרימות נתונים פרטניות, הבנת התלות בין טבלאות או ייצוא של רשומות מפורטות של שושלת לכל חיבור.

תצוגת רשימת קשרי התלות ברמת הטבלה

בתצוגה הזו מוצגים הקשרים בין הטבלאות בכללותן. משתמשים במסננים שמופיעים כדי לבחור את העמודות שרוצים.

טבלה שמציגה את רשימת קשרי הגומלין ברמת הטבלה בתצוגה פשוטה.
תצוגת רשימה פשוטה ברמת הטבלה

כדי לראות את העמודות שזמינות בתצוגות הרשימה ברמת הטבלה, מרחיבים את הקטעים הבאים.

העמודות שזמינות בתצוגת רשימה פשוטה ברמת הטבלה

  • מערכת: המערכת שבה נמצא נכס הנתונים. לדוגמה: BigQuery.
  • Project: מזהה הפרויקט ב- Google Cloud שמכיל את נכס הנתונים.
  • ישות: השם של נכס הנתונים. לדוגמה, שם של טבלה.
  • FQN: השם המלא (FQN) של ישות או עמודה במקור המקורי.
  • כיוון: מציין אם הנכס שמופיע ברשימה הוא במעלה הזרם (מקור) או במורד הזרם (יעד) בתהליך של שרשרת הנתונים.
  • עומק: מספר השלבים בשרשרת היוחסין מהנכס המרכזי שמנותח.

העמודות שזמינות בתצוגה המפורטת של רשימת הטבלאות

  • מערכת המקור: המערכת שבה נמצא נכס נתוני המקור. לדוגמה, BigQuery.
  • פרויקט המקור: מזהה הפרויקט ב- Google Cloud שמכיל את נכס נתוני המקור.
  • מקור: השם של נכס נתוני המקור. לדוגמה, שם של טבלה.
  • Source FQN: ה-FQN של ישות המקור.
  • מערכת היעד: המערכת שבה נמצא נכס נתוני היעד. לדוגמה, BigQuery.
  • Target project: מזהה הפרויקט ב- Google Cloud שמכיל את נכס נתוני היעד.
  • יעד: השם של נכס נתוני היעד. לדוגמה, שם של טבלה.
  • יעד FQN: ה-FQN של ישות היעד.
  • כיוון: מציין אם הנכס שמופיע ברשימה הוא במעלה הזרם (מקור) או במורד הזרם (יעד) בתהליך של שרשרת הנתונים.
  • עומק: מספר השלבים בשרשרת היוחסין מהנכס המרכזי שמנותח.

תצוגת רשימה של שושלת ברמת העמודה

בתצוגה הזו מוצגים הקשרים בין העמודות השונות בטבלאות המקור והיעד. משתמשים במסננים שמופיעים כדי לבחור את העמודות שרוצים.

טבלה שבה מוצגת רשימת השושלת ברמת העמודה בתצוגה פשוטה.
תצוגת רשימה פשוטה ברמת העמודה

כדי לראות את העמודות שזמינות בתצוגות הרשימה ברמת העמודה, מרחיבים את הקטעים הבאים.

עמודות שזמינות בתצוגת רשימה פשוטה ברמת העמודה

  • מערכת: המערכת שבה נמצא נכס הנתונים. לדוגמה: BigQuery.
  • Project: מזהה הפרויקט ב- Google Cloud שמכיל את נכס הנתונים.
  • ישות: השם של נכס הנתונים. לדוגמה, שם של טבלה.
  • עמודה: העמודה הספציפית שנבחרה בחלונית Lineage Explorer בתוך הישות.
  • FQN: השם המלא (FQN) של ישות המקור או העמודה המקורית.
  • כיוון: מציין אם הנכס שמופיע ברשימה הוא במעלה הזרם (מקור) או במורד הזרם (יעד) בתהליך של שרשרת הנתונים.
  • עומק: מספר השלבים בשרשרת היוחסין מהנכס המרכזי שמנותח.

העמודות שזמינות בתצוגת רשימה מפורטת ברמת העמודה

  • מערכת המקור: המערכת שבה נמצא נכס נתוני המקור.
  • פרויקט המקור: מזהה הפרויקט ב- Google Cloud שמכיל את נכס נתוני המקור.
  • Source FQN: ה-FQN של עמודת המקור.
  • מערכת היעד: המערכת שבה נמצא נכס נתוני היעד.
  • Target project (פרויקט היעד): מזהה הפרויקט ב- Google Cloud שמכיל את נכס נתוני היעד.
  • Target FQN: ה-FQN של עמודת היעד.
  • כיוון: מציין אם זרימת הנתונים היא במעלה הזרם או במורד הזרם.
  • סוגי תלות: תיאור של אופי הקשר בין העמודות.
  • עומק: מספר השלבים בשרשרת היוחסין מהנכס המרכזי שמנותח.

המאמרים הבאים