בדף הזה מוסבר איך לעקוב אחרי מקורות הנתונים במופע של Looker (Google Cloud core) באמצעות Knowledge Catalog.
שקיפות נתונים היא תהליך של מעקב אחרי זרימת הנתונים במערכות. שילוב של Looker (Google Cloud core) עם Knowledge Catalog מאפשר לכם להמחיש את המסלול המלא של הנתונים, מהמקור שלהם ב-BigQuery דרך השכבה הסמנטית של Looker (תצוגות ו-Explores של LookML) ועד לצריכה במורד הזרם בלוחות בקרה וב-Looks.
התצוגה הזו עוזרת למהנדסי נתונים ולאדמינים לבצע ניתוח השפעה. לדוגמה, לפני שמסירים עמודה מטבלה ב-BigQuery, אפשר לבדוק את תרשים שושלת הנתונים כדי לראות בדיוק אילו לוחות בקרה של Looker ייפגעו מהשינוי.
לפני שמתחילים
כדי להשתמש ב-Looker (Google Cloud core) למעקב אחר מקורות נתונים, צריך לעמוד בדרישות המוקדמות הבאות:
- Looker (Google Cloud core): תמיכה בתיעוד מקורות הנתונים זמינה בכל סוגי המהדורות של מופעי Looker (Google Cloud core). אי אפשר לשלב מופעים של Looker (מקורי) עם Knowledge Catalog.
- הרשאות נדרשות: כדי להציג גרפים של שרשרת מקורות הנתונים, אתם צריכים את תפקידי ה-IAM הבאים:
- Looker Schema Viewer (
roles/looker.schemaViewer) בפרויקט שמארח את מופע Looker (Google Cloud Core) - Dataplex Viewer (
roles/dataplex.viewer) או הרשאות שוות ערך לצפייה בנכסים של Knowledge Catalog - כלי להצגת שושלת נתונים (
roles/datalineage.viewer) כדי לקרוא נתוני שושלת
- Looker Schema Viewer (
הפעלת שושלת נתונים
כדי להפעיל את שושלת הנתונים, צריך לבצע את כל השלבים הבאים:
- הפעלת השילוב של Knowledge Catalog עם Looker (Google Cloud core): השילוב בין מופע Looker (Google Cloud core) לבין Knowledge Catalog מופעל כברירת מחדל במסוף Google Cloud . אם השילוב הושבת, צריך להפעיל אותו מחדש. הוראות מפורטות מופיעות במאמר בנושא הפעלת השילוב.
- הפעלה של התכונה 'מקור נתונים' ב-Knowledge Catalog בתצוגה מקדימה ב-Looker: התכונה מקור נתונים ב-Knowledge Catalog בתצוגה מקדימה מושבתת כברירת מחדל בדף תכונות בתצוגה מקדימה בחלונית אדמין במופע Looker (Google Cloud core).
- הפעלת Data Lineage API: צריך להפעיל את Data Lineage API (
datalineage.googleapis.com) בכל Google Cloud הפרויקטים שמארחים את מופע Looker (Google Cloud core) ואת נתוני BigQuery. - הפעלת הטמעה של נתוני שושלת ברמת השירות: Ensure שהשילוב של נתוני השושלת ושל Looker (Google Cloud core) ברמת השירות מופעל. השילוב של נתוני השושלת ברמת השירות מתבצע בהתאם למצבי ברירת המחדל הבאים:
- כדי למנוע השלכות על התמחור בעתיד, השבתנו כברירת מחדל את ההטמעה של שושלת נתונים ברמת השירות של Looker (Google Cloud core) בפרויקטים שבהם הופעל ה-API של שושלת הנתונים בתאריך ההשקה של גרסת הטרום-השקה של התכונה הזו, ושמתארחת בהם לפחות מופע אחד של Looker (Google Cloud core).
- הטמעה של שושלת ברמת השירות מופעלת כברירת מחדל במופעי Looker (Google Cloud core) שנוצרו אחרי תאריך ההשקה של גרסת הטרום-השקה של התכונה הזו בפרויקטים שבהם מופעל Data Lineage API.
כדי לראות את הגדרת שושלת הנתונים של Google Cloud פרויקט, אפשר לעיין במאמרי העזרה קבלת ההגדרה הנוכחית. אם השילוב עם Looker (Google Cloud core) מושבת, הפקודה תחזיר פלט דומה לזה:
{ "name": "projects/123456789012/locations/global/config", "ingestion": { "rules": [ { "integrationSelector": { "integration": "LOOKER_CORE" }, "lineageEnablement": { "enabled": false } } ] }, "etag": "Wb35wDxTTLd6Z+QAL+Yd4g==" }
מזהה הפרויקט בתשובה ישקף את המזהה שבבקשה שלכם. השדה etag הוא סכום ביקורת שנוצר על ידי השרת ומבוסס על הערך הנוכחי של ההגדרה.
הצגת שושלת הנתונים
אחרי שמפעילים את השילוב והסנכרון הראשוני מסתיים (יכול להיות שיחלפו עד 24 שעות), אפשר לראות את שושלת הנתונים במסוף של Knowledge Catalog.
- נכנסים לדף Knowledge Catalog במסוף Google Cloud .
- בחלונית הניווט הימנית, לוחצים על חיפוש.
- לחפש טבלה ב-BigQuery או נכס Looker (Google Cloud core) (כמו לוח בקרה או Explore).
- אפשר להשתמש בחלונית Filters (מסננים) כדי לסנן לפי System (מערכת) > Looker.
- לוחצים על שם הנכס כדי לפתוח את דף הפרטים שלו.
- לוחצים על הכרטיסייה Lineage (מקורות נתונים).
בתרשים השושלת, הנכס מוצג כצומת מרכזי, עם מקורות במעלה הזרם משמאל וצרכנים במורד הזרם מימין.
הסבר על גרף שושלת הנתונים
תרשים השושלת מורכב מצמתים ומקישורים:
- צמתים: מייצגים נכסי נתונים. הנכסים הנתמכים ב-Looker (Google Cloud Core) כוללים את הנכסים הבאים:
- מרכז בקרה ב-Looker
- רכיב בלוח הבקרה של Looker (משבצת)
- Looker Look
- LookML Explore
- תצוגת LookML
- קישורים: מייצגים את זרימת הנתונים. לדוגמה, קישור מטבלה ב-BigQuery לתצוגה ב-LookML מציין שהתצוגה בוחרת נתונים מהטבלה הזו.
זיהוי בעלי נכסים
כדי לגלות מי הבעלים של נכס במורד הזרם שעשוי להיות מושפע משינוי, פועלים לפי השלבים הבאים:
- בתרשים של שושלת הנתונים, לוחצים על הצומת של הנכס (לדוגמה, לוח בקרה של Looker).
- חלונית מידע תיפתח בצד שמאל של המסך.
- מחפשים את הקטע מאפיינים כדי למצוא את הבעלים (כתובת אימייל).
סינון רשימת שושלת הנתונים
בתצוגה List של נתוני השושלת, אפשר לסנן ישויות לפי שם או ערך של מאפיין. לדוגמה, מודלים מורכבים של LookML יכולים ליצור גרפים גדולים של שושלת עם הרבה ישויות ביניים. כדי להתמקד בהשפעה על העסק, אפשר לסנן לפי סוג ישות באופן הבא:
- בכרטיסייה Lineage, עוברים לתצוגת List.
- מאתרים את האפשרויות של סינון בסרגל הכלים.
- במסנן Entity, מזינים Looker Dashboard ו-Looker Look כדי לסנן סוגים ביניים כמו LookML View ו-Looker Explore.
רשימת הישויות מתעדכנת כך שיוצגו בה רק סוגי הנכסים שנבחרו, וכך קל יותר לזהות תוכן שמוצג למשתמשים.
מגבלות
במהלך גרסת הטרום-השקה, יש מגבלות על השילוב של Looker (Google Cloud Core) עם מעקב אחר מקורות נתונים:
- מקורות נתונים: בתצוגה המקדימה, שושלת הנתונים נתמכת רק במקורות נתונים של BigQuery.
- רמת פירוט: שושלת נתונים מסופקת ברמת האובייקט (טבלה, תצוגה, Explore, לוח בקרה). אין תמיכה בשיוך מקורות ברמת העמודה.
- השהיה: נתוני שושלת נתונים לא מתעדכנים בזמן אמת. תהליך הסנכרון נמשך בדרך כלל ארבע שעות. עם זאת, הסנכרון עשוי להימשך עד שמונה שעות, בהתאם לתזמון של ייצוא המטא-נתונים של Looker ושל צריכת נתוני השושלת. יכול להיות שיעבור זמן עד שהשינויים שבוצעו ב-Looker או ב-BigQuery יופיעו בתרשים של שרשרת המקור.
- SQL מורכב: יכול להיות שלא יתבצע ניתוח מלא של LookML שמוגדר באמצעות SQL מותאם אישית מורכב (לדוגמה, תבניות Liquid, טבלאות נגזרות עם הצטרפויות מורכבות), ויכול להיות שיווצרו צמתים מנותקים.
תמחור
במהלך גרסת הטרום-השקה, לא נגבה תשלום על תכונות של שרשרת מקורות הנתונים שמשמשות בשילוב הזה.
כששושלת נתונים תהיה זמינה לכלל המשתמשים, תיגרם עלות. כדי למנוע השלכות על התמחור בעתיד, הטמעת שושלת הנתונים של Looker (Google Cloud core) מושבתת כברירת מחדל בפרויקטים שבהם הופעל Data Lineage API בתאריך ההשקה של התכונה בגרסת Preview, ושמתארחת בהם לפחות מופע אחד של Looker (Google Cloud core).
מידע נוסף מופיע בדף המחירון של Knowledge Catalog.