מידע על שושלת נתונים

שיוך מקורות נתונים הוא מפה חזותית שעוקבת אחרי כל מחזור החיים של הנתונים. הוא מראה לכם מאיפה הנתונים מגיעים (המקור), לאן הם מגיעים (יעדים) ואת כל השינויים או הטרנספורמציות שמתרחשים בדרך.

אתם יכולים לראות את המפה המלאה הזו של מסלול הנתונים ישירות במסוףGoogle Cloud של נכסים שנוצרו במוצרים כמו Dataplex Universal Catalog,‏ BigQuery ו-Vertex AI. משתמשים מתקדמים יכולים גם לאחזר את המידע הזה באמצעות Data Lineage API.

למה צריך שושלת נתונים

חברות מודרניות מעבירות ומשנות כמויות גדולות של נתונים כל הזמן. לדוגמה, המרה של רכישות גולמיות של לקוחות לדוחות, למרכזי בקרה ולמודלים של למידת מכונה. המורכבות הזו יוצרת אתגרים קריטיים לצוות שלכם:

  • אמינות ואימות: משתמשים בנתונים מתקשים לעיתים קרובות לוודא שהדוחות והמספרים שהם רואים מדויקים ומגיעים ממקור מהימן.

  • פתרון בעיות: כששגיאה מופיעה בדוח סופי, יכול להיות שצוותי הנתונים יתקשו לאתר את שורש הבעיה ויצטרכו להשקיע זמן רב כדי לעבור על כל השלבים.

  • ניהול שינויים: לפני שמשנים או מוחקים נתון (למשל עמודה בטבלה), הצוותים צריכים לדעת על כל דוח או מודל במורד הזרם שמסתמך על הנתון הזה, כדי למנוע שיבוש של מערכות קריטיות.

  • תאימות: מנהלים צריכים לראות איך מידע אישי רגיש (כמו מידע על לקוחות או מידע פיננסי) משמש בארגון כדי לעמוד בדרישות הרגולטוריות.

הפתרון לבעיות האלה הוא מעקב אחר מקורות נתונים, שמאפשר לכם לראות בצורה ברורה, ויזואלית ומתועדת את המסלול של הנתונים. כך תוכלו להבין במהירות את מקורות הנתונים, לעקוב אחרי שגיאות, להעריך את ההשפעה של שינויים ולשמור על תאימות.

תהליך העבודה של שושלת הנתונים

תהליך העבודה של שושלת הנתונים כולל את השלבים הבאים:

  1. מקורות נתונים והעברה: מידע על שושלת מגיע ממקורות הנתונים ומתחיל את התהליך כולו. מידע נוסף זמין במאמר בנושא מקורות של נתוני שושלת.

    • Google Cloud שירותים: כשממשק Data Lineage API מופעל, שירותים נתמכים כמו BigQuery ו-Dataflow מדווחים באופן אוטומטי על אירועי שושלת בכל פעם שנתונים מועברים או עוברים שינוי.

    • מקורות מותאמים אישית: במערכות שלא נתמכות אוטומטית על ידיGoogle Cloud שילובים, אפשר להשתמש ב-Data Lineage API כדי לתעד באופן ידני מידע על מקורות הנתונים. מומלץ לייבא אירועים בפורמט שמותאם לתקן OpenLineage.

  2. פלטפורמת שושלת: הפלטפורמה המרכזית הזו קולטת, מעצבת ומאחסנת את כל נתוני השושלת. מידע נוסף זמין במאמר בנושא מודל המידע ורמת הפירוט של שושלת הנתונים.

    • ‫Data Lineage API: ה-API הזה משמש כנקודת כניסה יחידה לכל המידע על שרשרת המקורות הנכנסים. הוא משתמש במודל נתונים היררכי שמורכב משלושה מושגי ליבה: תהליך, הרצה ואירוע.

    • עיבוד ואחסון: הפלטפורמה מעבדת נתונים נכנסים ומאחסנת אותם במסדי נתונים אמינים שעברו אופטימיזציה לשאילתות.

  3. חוויית משתמש: יש שתי דרכים עיקריות לאינטראקציה עם מידע השושלת המאוחסן:

    • עיון חזותי: במסוף Google Cloud , שירות קצה קדמי מאחזר את נתוני השושלת ומציג אותם כתרשים או כרשימה אינטראקטיביים. האפשרות הזו נתמכת ב-Dataplex Universal Catalog, ב-BigQuery וב-Vertex AI (למודלים, למערכי נתונים, לתצוגות של מאגר תכונות ולקבוצות תכונות). האפשרות הזו מצוינת כדי לראות את המסלול של הנתונים. מידע נוסף זמין במאמר בנושא תצוגות של שושלת הנתונים במסוף Google Cloud .

    • גישה פרוגרמטית: באמצעות לקוח API, אפשר לתקשר ישירות עם Data Lineage API כדי לבצע אוטומציה של ניהול שושלת הנתונים. כך תוכלו לכתוב מידע על שרשרת מקורות ממקורות מותאמים אישית. בנוסף, אפשר לקרוא את נתוני השושלת המאוחסנים ולשאול עליהם שאילתות כדי להשתמש בהם באפליקציות אחרות או כדי ליצור דוחות בהתאמה אישית.

מקורות של שרשרת היוחסין

אפשר לאכלס את המידע על שרשרת המקורות ב-Dataplex Universal Catalog בדרכים הבאות:

  • באופן אוטומטי משירותים משולבים Google Cloud
  • באופן ידני, באמצעות Data Lineage API למקורות מותאמים אישית
  • ייבוא אירועים מ-OpenLineage

BigQuery

כשמפעילים את התכונה 'מקורות נתונים' בפרויקט BigQuery, ב-Dataplex Universal Catalog מתועדים באופן אוטומטי מקורות הנתונים של הפריטים הבאים:

משימות העתקה, שאילתה וטעינה ב-BigQuery מיוצגות כתהליכים.

כדי להציג את פרטי התהליך, בתרשים השושלת לוחצים על סמל פרטי התהליך סמל של פרטי התהליך.

כל תהליך מכיל את job_id של BigQuery ברשימה attributes של משימת BigQuery האחרונה.

שירותים נוספים

התכונה 'מקורות נתונים' תומכת בשילוב עם השירותים הבאים:Google Cloud

שושלת נתונים למקורות נתונים בהתאמה אישית

אתם יכולים להשתמש ב-Data Lineage API כדי לתעד באופן ידני מידע על מקורות נתונים שלא נתמכים על ידי מערכות משולבות.

ב-Dataplex Universal Catalog אפשר ליצור תרשימי שושלת לנתוני שושלת שתועדו באופן ידני, אם משתמשים בfullyQualifiedName שתואם לשמות המלאים של רשומות קיימות ב-Dataplex Universal Catalog. אם רוצים לתעד את מקורות הנתונים של מקור נתונים מותאם אישית, צריך קודם ליצור רשומה מותאמת אישית.

כל תהליך של מקור נתונים מותאם אישית יכול להכיל מפתח sql ברשימת המאפיינים. הערך של המפתח הזה משמש לעיבוד של הדגשת קוד בחלונית הפרטים של תרשים שרשרת מקורות הנתונים. הצהרת ה-SQL מוצגת כפי שהיא סופקה. באחריותכם לסנן מידע רגיש. שם המפתח sql הוא תלוי אותיות רישיות (case-sensitive).

OpenLineage

אם אתם כבר משתמשים ב-OpenLineage כדי לאסוף מידע על שושלת נתונים ממקורות נתונים אחרים, אתם יכולים לייבא אירועי OpenLineage אל Dataplex Universal Catalog ולצפות באירועים האלה במסוף Google Cloud . מידע נוסף מופיע במאמר בנושא שילוב עם OpenLineage.

מעקב אוטומטי אחר שושלת הנתונים

כשמפעילים את Data Lineage API, Google Cloud מערכות שתומכות ב-Data Lineage מתחילות לדווח על תנועת הנתונים שלהן. כל מערכת משולבת יכולה לשלוח מידע על מקורות נתונים שונים.

שליטה בהטמעת נתוני שושלת

אתם יכולים לקבוע אילו Google Cloud שירותים ייצרו נתוני שושלת על ידי הפעלה או השבתה של הטמעת שושלת בשילובים ספציפיים. אפשר לשלוט בהטמעה של שושלת ברמת הארגון, התיקייה והפרויקט. במהלך תקופת הטרום-השקה, התכונה הזו תומכת בהגדרת הטמעה של שושלת נתונים רק ב-Dataproc. אם משביתים את ההטמעה של נתוני השושלת ב-Dataproc, ההטמעה של נתוני השושלת מושבתת גם ב-Dataproc Serverless ל-Apache Spark.

‫Dataplex Universal Catalog מעריך את היררכיית המשאבים (קודם הפרויקט, אחר כך התיקיות ואז הארגון) כדי לקבוע את ההגדרה האפקטיבית. ההגדרה הראשונה שמוגדרת באופן מפורש בכל רמה במסלול הזה כלפי מעלה היא זו שתהיה בתוקף.

  • אם מגדירים הגדרה ברמת הפרויקט, Dataplex Universal Catalog משתמש בה.
  • אם לא מוגדרת הגדרה ברמת הפרויקט, Dataplex Universal Catalog משתמש בהגדרה מהתיקייה הקרובה ביותר ברמת ההורה עם הגדרה מפורשת.
  • אם לא מוגדרת תצורה ברמת הפרויקט או התיקייה, Dataplex Universal Catalog משתמש בתצורה ברמת הארגון.
  • אם לא מוגדרת תצורה באף אחת מהרמות האלה, Dataplex Universal Catalog משתמש בברירת המחדל של המערכת לשילוב. ברירת המחדל להגדרת הפעלת שרשרת המקור יכולה להיות מופעלת או מושבתת. ב-Dataproc, הטמעת שושלת נתונים מופעלת כברירת מחדל אם Data Lineage API פעיל.

לדוגמה, נניח שיש ארגון test-org עם ההגדרות הבאות של שושלת הנתונים ב-Dataproc:

  • ארגון test-org: מופעל
    • תיקייה folder-a: מושבת
      • פרויקט project-a: לא הוגדרה תצורה
    • תיקייה folder-b: מופעל
      • פרויקט project-b: מושבת

במקרה כזה, ההגדרות הרלוונטיות הן:

  • ב-project-a, הטמעת שרשרת היוחסין מושבתת. ‫Dataplex Universal Catalog מתחיל להעריך מ-project-a, לא מוצא הגדרה, עובר ל-folder-a ומחיל את ההגדרה Disabled מ-folder-a.
  • ב-project-b, הטמעת שרשרת היוחסין מושבתת. ‫Dataplex Universal Catalog מתחיל להעריך מ-project-b ומחיל את ההגדרה Disabled שלו, תוך ביטול ההגדרות ב-folder-b וב-test-org.

שליטה ביצירת נתוני שושלת עוזרת לכם לנהל את העלויות ואת מדיניות השליטה. לדוגמה, אפשר להשבית את איסוף נתוני השושלת בפרויקטים של פיתוח או בעומסי עבודה גדולים שלא דורשים מעקב אחר השושלת.

מידע על הגדרה ושליטה בהעברה של נתוני שושלת זמין במאמר שליטה בהעברה של נתוני שושלת לשירות.

מגבלות

אלו המגבלות שחלות על מעקב אחר מקורות נתונים:

  • כל פרטי שרשרת המקור נשמרים במערכת למשך 30 ימים בלבד.

  • פרטי השושלת נשמרים גם אחרי שמוחקים את מקור הנתונים שקשור אליהם. לדוגמה, אם מוחקים טבלה ב-BigQuery, עדיין אפשר לראות את שרשרת המקור שלה דרך ה-API והמסוף למשך עד 30 יום.

  • ב-BigQuery, שושלת הנתונים לא מתעדת באופן אוטומטי מידע על שושלת ישירה של נתונים בשגרות. אם משתמשים בשגרה בשאילתה, מעקב מקורות הנתונים מתעד את המקורות בין הטבלאות שהשגרה קוראת כתלות בטבלאות שהשאילתה כותבת.

מגבלות על שושלת נתונים ברמת העמודה

אלו המגבלות הנוספות שחלות על שושלת נתונים ברמת העמודה:

  • השיוך ברמת העמודה לא נאסף עבור משימות טעינה ב-BigQuery או עבור שגרות.

  • לא מתבצע איסוף של שושלת (lineage) ברמת העמודה במעלה הזרם עבור טבלאות חיצוניות.

  • אם עבודה יוצרת יותר מ-1,500 קישורים ברמת העמודה, לא נאסף שושלת ברמת העמודה. במקרים כאלה, נאסף רק נתוני שושלת ברמת הטבלה.

  • אין API ליצירה, לקריאה, לעדכון, למחיקה או לחיפוש של שושלת ברמת העמודה.

  • התמיכה בטבלאות עם חלוקה למחיצות מוגבלת, כי עמודות של חלוקה למחיצות כמו _PARTITIONDATE ו-_PARTITIONTIME לא מזוהות בתרשים של שרשרת מקורות הנתונים.

  • מגבלות של המסוף:

    • המעבר בתרשים של שרשרת המקור מוגבל לעומק של 20 רמות ול-10,000 קישורים בכל כיוון.

    • השיוך של עמודות נמשך רק מהאזור שבו נמצא טבלת הבסיס. אין תמיכה בייחוס מקורות חוצה אזורים בתצוגת הגרף.

תמחור

  • ב-Dataplex Universal Catalog, המק"ט של עיבוד פרימיום משמש לחיוב על שושלת הנתונים. מידע נוסף מפורט בקטע תמחור.

  • כדי להפריד בין החיובים על שושלת הנתונים לבין חיובים אחרים במק"ט של עיבוד פרימיום ב-Dataplex Universal Catalog, משתמשים בתווית goog-dataplex-workload-type עם הערך LINEAGE בדוח החיוב ב-Cloud.

  • אם קוראים ל-Data Lineage API Origin sourceType עם ערך שונה מ-CUSTOM, יחולו עלויות נוספות.

המאמרים הבאים