Dataplex Universal Catalog מקל על ההבנה והניתוח של הנתונים שלכם על ידי יצירת פרופילים אוטומטית של טבלאות BigQuery.
פרופיל הוא כמו דוח בריאות מפורט של הנתונים. הוא כולל נתונים סטטיסטיים חשובים, כמו ערכים נפוצים, פיזור הנתונים (התפלגות) ומספר הרשומות החסרות (ספירת ערכי null). המידע הזה יזרז את הניתוח.
פרופיל הנתונים מזהה באופן אוטומטי מידע רגיש ומאפשר לכם להגדיר כללי מדיניות של בקרת גישה. הוא ממליץ על כללים לבדיקת איכות הנתונים כדי לוודא שהנתונים שלכם יישארו אמינים.
מודל קונספטואלי
בעזרת Dataplex Universal Catalog תוכלו להבין טוב יותר את פרופיל הנתונים שלכם על ידי יצירת סריקת פרופיל נתונים. סריקת פרופיל נתונים היא סוג של סריקת נתונים ב-Dataplex Universal Catalog שמנתחת טבלה ב-BigQuery כדי ליצור תובנות סטטיסטיות.
הדיאגרמה הבאה מציגה כיצד Dataplex Universal Catalog סורק נתונים כדי לדווח על מאפיינים סטטיסטיים.
סריקת פרופיל נתונים משויכת לטבלה אחת ב-BigQuery, והיא סורקת את הטבלה כדי ליצור את תוצאות פרופיל הנתונים. סריקה של פרופיל נתונים תומכת בכמה אפשרויות הגדרה.
אפשרויות להגדרות אישיות
בקטע הזה מתוארות אפשרויות ההגדרה הזמינות להפעלת סריקות של פרופיל נתונים.
אפשרויות תזמון
אפשר לתזמן סריקת פרופיל נתונים בתדירות מוגדרת, או להפעיל את הסריקה על פי דרישה.
היקף
אפשר להגדיר את היקף הנתונים שייסרקו:
טבלה מלאה: כל הטבלה נסרקת בסריקת פרופיל הנתונים. הדגימה, המסננים של השורות והמסננים של העמודות מוחלים על כל הטבלה לפני חישוב הנתונים הסטטיסטיים של הפרופיל.
מצטבר: נתונים מצטברים שאתם מציינים נסרקים בסריקת פרופיל הנתונים. מציינים עמודה
DateאוTimestampבטבלה שתשמש כתוספת. בדרך כלל, זו העמודה שלפיה הטבלה מחולקת למחיצות. המערכת מחילה דגימה, מסנני שורות ומסנני עמודות על הנתונים המצטברים לפני חישוב נתוני הפרופיל.
סינון נתונים
אתם יכולים לסנן את הנתונים שנסרקים לצורך יצירת פרופיל באמצעות מסנני שורות ומסנני עמודות. השימוש במסננים עוזר לצמצם את זמן הריצה והעלות, ולהחריג נתונים רגישים ונתונים לא שימושיים.
מסנני שורות: מסנני שורות מאפשרים להתמקד בנתונים בטווח זמן מסוים או בפלח מסוים, כמו אזור. לדוגמה, אפשר לסנן נתונים עם חותמת זמן לפני תאריך מסוים.
מסנני עמודות: מסנני עמודות מאפשרים לכם לכלול ולהחריג עמודות ספציפיות מהטבלה כדי להריץ את סריקת פרופיל הנתונים.
נתונים לדוגמה
אתם יכולים לציין אחוז של רשומות מהנתונים שלכם כדי לבצע דגימה לצורך הפעלת סריקת פרופיל נתונים. יצירת סריקות של פרופיל נתונים במדגם קטן יותר של נתונים יכולה לקצר את זמן הריצה ולהפחית את העלות של שליחת שאילתות למערך הנתונים כולו.
סריקות מרובות של פרופיל נתונים
אפשר ליצור כמה סריקות של פרופילים של נתונים בו-זמנית באמצעות מסוף Google Cloud . אפשר לבחור עד 100 טבלאות ממערך נתונים אחד וליצור סריקת פרופיל נתונים לכל מערך נתונים. מידע נוסף זמין במאמר יצירת סריקות מרובות של פרופיל נתונים.
ייצוא תוצאות הסריקה לטבלה ב-BigQuery
אפשר לייצא את תוצאות סריקת פרופיל הנתונים לטבלה ב-BigQuery כדי לבצע ניתוח נוסף. כדי להתאים אישית את הדיווח, אפשר לקשר את נתוני הטבלה ב-BigQuery למרכז בקרה ב-Looker. אפשר ליצור דוח מצטבר באמצעות אותה טבלת תוצאות בכמה סריקות.
תוצאות של יצירת פרופילים של נתונים
תוצאות פרופיל הנתונים כוללות את הערכים הבאים:
| סוג העמודה | תוצאות של יצירת פרופילים של נתונים |
|---|---|
| עמודה מספרית |
|
| עמודה של מחרוזות |
|
| עמודות אחרות שלא מקוננות (תאריך, שעה, חותמת זמן, בינארי וכו') |
|
| כל העמודות האחרות עם סוגי נתונים מורכבים או מקוננים (כמו Record, Array, JSON) או כל עמודה עם מצב repeated. |
|
התוצאות כוללות את מספר הרשומות שנסרקו בכל עבודה.
דיווח ומעקב
כדי לעקוב אחרי התוצאות של פרופיל הנתונים ולנתח אותן, אפשר להשתמש בדוחות ובשיטות הבאים:
דוחות שפורסמו עם טבלת המקור בדפים BigQuery ו-Dataplex Universal Catalog
אם מגדירים סריקה של פרופיל נתונים כדי לפרסם את התוצאות ב-BigQuery וב-Dataplex Universal Catalog, אפשר לראות את התוצאות האחרונות של סריקת פרופיל הנתונים בכרטיסייה פרופיל נתונים של טבלת המקור ב-BigQuery וב-Dataplex Universal Catalog. אפשר לגשת לתוצאות האלה מכל פרויקט.
דוח היסטורי לכל משרה
בדף סריקת פרופיל נתונים בקטע פרופיל נתונים ואיכות נתונים> ב-Dataplex Universal Catalog וב-BigQuery, אפשר לראות את הדוחות המפורטים של המשימות האחרונות ושל משימות קודמות. המידע הזה כולל את פרטי הפרופיל ברמת העמודה ואת ההגדרה שבה נעשה שימוש.
הכרטיסייה 'ניתוח'
בדף סריקת פרופיל נתונים > פרופיל נתונים ואיכות ב-Dataplex Universal Catalog וב-BigQuery, אפשר להשתמש בכרטיסייה ניתוח כדי לראות את המגמות של נתון מסוים בעמודה לאורך כמה משימות פרופיל. לדוגמה, אם יש לכם סריקה מצטברת, תוכלו לראות את המגמה של הממוצע של ערך מסוים לאורך זמן.
יצירת לוח בקרה או ניתוח משלכם
אם הגדרתם סריקה של פרופיל נתונים לייצוא תוצאות לטבלה ב-BigQuery, תוכלו ליצור מרכזי בקרה משלכם באמצעות כלים כמו Looker Studio.
מגבלות
- פרופיל נתונים נתמך בטבלאות BigQuery עם כל סוגי העמודות, למעט
BIGNUMERIC. סריקה שנוצרה לטבלה עם עמודהBIGNUMERICמובילה לשגיאת אימות ולא נוצרת בהצלחה.
תמחור
למידע נוסף על תמחור, ראו תמחור של Dataplex Universal Catalog.
המאמרים הבאים
- איך משתמשים בפרופיל נתונים
- מידע נוסף על המשאבים הזמינים של Terraform ליצירת סריקות של פרופיל נתונים זמין במאמרים הבאים:
- משאב סריקת הנתונים של Dataplex ב-Terraform Registry.
- המסמכים בנושא משאב סריקת הנתונים של Dataplex ב-GitHub, שכוללים תמיכה בהגדרת כללים מבוססי YAML.
- מידע נוסף על איכות נתונים אוטומטית
- איך משתמשים בתכונה 'איכות נתונים אוטומטית'
- כך בוחנים את הנתונים באמצעות יצירת תובנות מהנתונים.