Knowledge Catalog (לשעבר Dataplex Universal Catalog) מקל על ההבנה והניתוח של הנתונים שלכם על ידי יצירת פרופיל אוטומטי של הטבלאות ב-BigQuery וב-Iceberg REST Catalog.
פרופיל הוא כמו דוח בריאות מפורט של הנתונים. הוא כולל נתונים סטטיסטיים חשובים, כמו ערכים נפוצים, פיזור הנתונים (התפלגות) ומספר הרשומות החסרות (ספירת ערכי null). המידע הזה יזרז את הניתוח.
פרופיל נתונים ממליץ על כללים לבדיקת איכות הנתונים כדי לוודא שהנתונים שלכם יישארו אמינים.
מודל קונספטואלי
בעזרת Knowledge Catalog תוכלו להבין טוב יותר את פרופיל הנתונים שלכם על ידי יצירת סריקה של פרופיל הנתונים. סריקת פרופיל נתונים היא סוג של סריקת נתונים ב-Knowledge Catalog שמנתחת טבלה ב-BigQuery או ב-Iceberg REST Catalog כדי ליצור תובנות סטטיסטיות.
בתרשים הבא מוצג תהליך הסריקה של נתונים בקטלוג הידע כדי לדווח על מאפיינים סטטיסטיים.
סריקה של פרופיל נתונים משויכת לטבלה אחת ב-BigQuery או לטבלה אחת ב-Iceberg REST Catalog, והיא סורקת את הטבלה כדי ליצור את התוצאות של פרופיל הנתונים. סריקת פרופיל נתונים תומכת בכמה אפשרויות הגדרה.
אפשרויות להגדרות אישיות
בקטע הזה מוסבר על אפשרויות ההגדרה שזמינות להפעלת סריקות של פרופיל נתונים.
מצבי יצירת פרופילים
אפשר לבחור בין מצבי הפרופיל הבאים:
רגיל: זהו מצב ברירת המחדל. הוא מספק פרופיל מקיף וניתן להתאמה אישית על ידי סריקת הנתונים על סמך הדגימה והמסננים שאתם מציינים. המצב הרגיל מתאים לניתוח מפורט ולמעקב ארוך טווח אחרי מאפייני הנתונים.
קל משקל (תצוגה מקדימה): במצב הזה מתבצעות סריקות פרופילים עם השהיה נמוכה, והתוצאות מתקבלות תוך שניות. הוא מותאם למהירות וליעילות מבחינת עלות, כדי לתמוך בתרחישי שימוש כמו אלה:
- עיגון תשובות של סוכני AI באמצעות מאפייני נתונים מיידיים
- יצירה מראש של פרופילים בהיקף רחב בצורה משתלמת לחיפוש נתונים גלובלי
- אספקת דוחות בריאות מהירים במהלך ניתוח נתונים אינטראקטיבי
במצב הקל יש מגבלות מסוימות:
- בניגוד למצב פרופיל רגיל, לא ניתן לשנות את ההיקף, המסננים או גודל הדגימה בסריקות קלות.
- אין תמיכה בתצוגות ובטבלאות חיצוניות של BigQuery.
לא מובְנה (גרסת Preview): במצב הזה מתבצע סריקה עצמאית של פרופיל נתונים לנתונים לא מובְנים (
UnstructuredDataProfileSpec) באמצעות מודלים של Gemini ב-Vertex AI, כדי לנתח את התוכן האיכותי בפועל של קבצים לא מובְנים (כמו קובצי PDF ב-Cloud Storage) באמצעות טבלאות אובייקטים קיימות ב-BigQuery. בניגוד למצבי פרופיל מובנים (Standard ו-Lightweight), שבהם מחושבים מדדים סטטיסטיים כמו ספירת ערכי null והתפלגויות ערכים, בסריקות של פרופיל נתונים לנתונים לא מובנים מתבצעת הסקה סמנטית כדי לחלץ ישויות עסקיות (NodeType) ויחסים (EdgeType), מצורף היבט (dataplex-types.global.graph-profile) לרשומה בקטלוג, ומתאפשרת מימוש נתונים תוכניתי בטבלאות או בתצוגות פיזיות ב-BigQuery.Graph Profileהערה: סריקות של פרופיל נתונים לנתונים לא מובנים זמינות בתצוגה מקדימה ציבורית באמצעות Dataplex API בארכיטקטורת REST בלבד. אין תמיכה בתהליכי עבודה במסוף Google Cloud וב-CLI של Google Cloud.
מידע נוסף זמין במאמרים מידע על תובנות לגבי נתונים לא מובְנים, שימוש בסריקת גילוי לנתונים לא מובְנים (לסריקות גילוי ב-Cloud Storage) ושימוש בפרופיל נתונים לנתונים לא מובְנים (ליצירת פרופיל של טבלת אובייקטים עצמאית).
אפשרויות תזמון
אפשר לתזמן סריקה של פרופיל נתונים בתדירות מוגדרת, או להפעיל את הסריקה לפי דרישה. אם עבודת סריקה נמשכת יותר זמן מהצפוי, אפשר לבטל את העבודה.
זהות הביצוע
כברירת מחדל, Knowledge Catalog משתמש בסוכן שירות מרכזי (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) כדי להריץ סריקות של פרופילים של נתונים.
אפשר גם לשנות את זהות הביצוע שמוגדרת כברירת מחדל על ידי ציון חשבון שירות מותאם אישית (Bring Your Own Service Account) או על ידי שימוש בפרטי הכניסה של משתמש הקצה (EUC). היתרונות של הגישה הזו:
- עקרון ההרשאות המינימליות: צריך להעניק לחשבון שירות ייעודי רק את ההרשאות המדויקות של ניהול זהויות והרשאות גישה (IAM) שנדרשות למשימות ספציפיות של יצירת פרופיל נתונים, כדי לצמצם את הגישה שניתנת מעבר לנדרש.
- בקרת גישה מדויקת: הגדרת הרשאות למשאבים ספציפיים, שמאפשרת שילוב עם מדיניות גישה ברמת השורה וברמת העמודה ב-BigQuery.
- יכולת ביקורת משופרת: הקצאת חשבונות שירות מותאמים אישית או פרטי כניסה של משתמשים לסריקות ספציפיות, מה שהופך את המעקב והרישום של פעילויות לברורים הרבה יותר ביומני הביקורת.
- איחוד החיוב: כשמשתמשים בזהות ביצוע בהתאמה אישית, החיובים על העיבוד והאחסון מרוכזים ישירות ב-BigQuery (בלי לעבור דרך מק"טים של Knowledge Catalog Premium). כך תוכלו ליהנות מהנחות על BigQuery לארגונים ומהתחייבויות לשימוש ביחידות קיבולת.
הוראות להגדרת זהות הפעלה מותאמת אישית זמינות במאמר הגדרת זהות הפעלה.
היקף
בסריקות פרופילים רגילות, אפשר לציין את היקף הנתונים שרוצים לסרוק:
טבלה מלאה: כל הטבלה נסרקת בסריקת פרופיל הנתונים. הדגימה, המסננים של השורות והמסננים של העמודות מוחלים על הטבלה כולה לפני חישוב הנתונים הסטטיסטיים של הפרופיל.
מצטבר: נתונים מצטברים שאתם מציינים נסרקים בסריקת פרופיל הנתונים. מציינים עמודה
DateאוTimestampבטבלה שתשמש כתוספת. בדרך כלל, זו העמודה שלפיה הטבלה מחולקת למחיצות. המערכת מחילה דגימה, מסנני שורות ומסנני עמודות על הנתונים המצטברים לפני חישוב נתוני הפרופיל.
סינון נתונים
בסריקות פרופילים רגילות, אפשר לסנן את הנתונים שייכללו בסריקה ליצירת פרופילים באמצעות מסנני שורות ומסנני עמודות. השימוש במסננים עוזר לקצר את זמן הריצה ולהפחית את העלות, וגם לא לכלול נתונים רגישים ומיותרים. סריקות קלות של פרופילים לא תומכות במסנני עמודות ובמסנני שורות.
מסנני שורות: מסנני שורות מאפשרים להתמקד בנתונים בטווח זמן מסוים או בפלח מסוים, כמו אזור. לדוגמה, אפשר לסנן נתונים עם חותמת זמן שלפני תאריך מסוים.
מסנני עמודות: מסנני עמודות מאפשרים לכם לכלול ולהחריג עמודות ספציפיות מהטבלה כדי להריץ את הסריקה של פרופיל הנתונים.
נתונים לדוגמה
בסריקות פרופיל רגילות, אפשר לציין אחוז של רשומות מהנתונים לדגימה כדי להריץ סריקת פרופיל נתונים. יצירת סריקות של פרופיל הנתונים במדגם קטן יותר של נתונים יכולה לקצר את זמן הריצה ולהפחית את העלות של שאילתות על מערך הנתונים כולו.
סריקות מרובות של פרופיל נתונים
אפשר ליצור כמה סריקות של פרופילים של נתונים בו-זמנית באמצעות מסוף Google Cloud . אתם יכולים לבחור עד 100 טבלאות ממערך נתונים אחד וליצור סריקה של פרופיל נתונים לכל מערך נתונים. מידע נוסף זמין במאמר בנושא יצירת סריקות מרובות של פרופיל נתונים.
ייצוא תוצאות הסריקה לטבלה ב-BigQuery
אפשר לייצא את תוצאות הסריקה של פרופיל הנתונים לטבלה ב-BigQuery כדי לבצע ניתוח נוסף. כדי להתאים אישית את הדיווח, אפשר לקשר את נתוני הטבלה ב-BigQuery למרכז בקרה ב-Looker. אפשר ליצור דוח מצטבר באמצעות אותה טבלת תוצאות בכמה סריקות.
תוצאות של יצירת פרופילים של נתונים
תוצאות פרופיל הנתונים כוללות את הערכים הבאים:
| סוג העמודה | תוצאות של יצירת פרופילים של נתונים |
|---|---|
| עמודה מספרית |
|
| עמודה של מחרוזות |
|
| עמודות אחרות שלא מקוננות (תאריך, שעה, חותמת זמן, בינארי וכו') |
|
| כל העמודות האחרות עם סוגי נתונים מורכבים או מקוננים (כמו Record, Array, JSON) או כל עמודה עם מצב repeated. |
|
התוצאות כוללות את מספר הרשומות שנסרקו בכל עבודה.
דיווח ומעקב
כדי לעקוב אחרי התוצאות של פרופיל הנתונים ולנתח אותן, אפשר להשתמש בדוחות ובשיטות הבאים:
דוחות שפורסמו עם טבלת המקור בדפים BigQuery ו-Knowledge Catalog
אם מגדירים סריקה של פרופיל נתונים כדי לפרסם את התוצאות ב-BigQuery וב-Knowledge Catalog, אפשר לראות את התוצאות האחרונות של סריקת פרופיל הנתונים בכרטיסייה פרופיל נתונים של טבלת המקור ב-BigQuery וב-Knowledge Catalog. אפשר לגשת לתוצאות האלה מכל פרויקט.
דוח היסטורי לכל משרה
בדף סריקת פרופיל נתונים > פרופיל נתונים ואיכות נתונים ב-Knowledge Catalog וב-BigQuery, אפשר לראות את הדוחות המפורטים של המשימות האחרונות ושל משימות קודמות. המידע הזה כולל מידע על הפרופיל ברמת העמודה וההגדרה שבה נעשה שימוש.
הכרטיסייה 'ניתוח'
בדף סריקת פרופיל נתונים > פרופיל נתונים ב-Knowledge Catalog וב-BigQuery, אפשר להשתמש בכרטיסייה ניתוח כדי לראות את המגמות של נתון מסוים בעמודה לאורך כמה משימות פרופיל. לדוגמה, אם יש לכם סריקה מצטברת, תוכלו לראות את המגמה של הממוצע של ערך מסוים לאורך זמן.
יצירת לוח בקרה או ניתוח משלכם
אם הגדרתם סריקה של פרופיל נתונים לייצוא תוצאות לטבלה ב-BigQuery, תוכלו ליצור לוחות בקרה משלכם באמצעות כלים כמו Data Studio.
מגבלות
- אפשר להריץ סריקות של פרופיל נתונים רק בטבלאות של BigQuery ושל Iceberg REST Catalog.
- פרופיל נתונים נתמך בטבלאות BigQuery עם כל סוגי העמודות, למעט
BIGNUMERIC. סריקה שנוצרה עבור טבלה עם עמודהBIGNUMERICמובילה לשגיאת אימות ולא נוצרת בהצלחה.
תמחור
מידע נוסף על תמחור זמין במאמר בנושא תמחור של Knowledge Catalog.
המאמרים הבאים
- איך משתמשים בפרופיל נתונים
- מידע נוסף על המשאבים הזמינים של Terraform ליצירת סריקות של פרופיל נתונים מופיע במאמרים הבאים:
- משאב לסריקת נתונים ב-Knowledge Catalog במאגר Terraform.
- מסמכי המשאבים של סריקת הנתונים ב-Knowledge Catalog ב-GitHub, שתומכים בהגדרת כללים מבוססי YAML.
- מידע נוסף על איכות נתונים אוטומטית
- איך משתמשים באיכות נתונים אוטומטית
- כך בוחנים את הנתונים באמצעות יצירת תובנות מהנתונים.