Knowledge Catalog (לשעבר Dataplex Universal Catalog) תומך במגוון תבניות של כללים שאפשר להשתמש בהן כדי להגדיר תהליכים של איכות נתונים ואימות נתונים, ולבצע אוטומציה שלהם. הטמעה של התבניות האלה היא חלק חשוב במשילות מידע, והיא מבטיחה שהמערכים של הנתונים יישארו מדויקים ועקביים.
כדי לזהות באילו מהתבניות האלה כדאי להשתמש, אפשר לבצע פרופיל נתונים במשאבים כדי לזהות בעיות פוטנציאליות באיכות. אחרי שמזהים את בדיקות האיכות הנדרשות, אפשר לבחור את התבניות המתאימות בדף הזה כדי להגדיר כללים למשאבים.
בדף הזה מפורטות תבניות הכללים הזמינות במערכת שאפשר להשתמש בהן בכל אזור.
צורת הטבלה
| שם | תיאור |
|---|---|
| Column Count Equality Expectation | כלל צבירה שבודק אם מספר העמודות בטבלה שווה לערך שצוין. הכלל הזה דורש הרשאות bigquery.tables.get, bigquery.tables.list ו-bigquery.datasets.get בטבלה ובמערך הנתונים שעליהם מופעלת השאילתה. |
| Column Count Range Expectation | כלל צבירה שבודק אם מספר העמודות בטבלה נמצא בטווח שצוין. הכלל הזה דורש הרשאות bigquery.tables.get, bigquery.tables.list ו-bigquery.datasets.get בטבלה ובמערך הנתונים שעליהם מופעלת השאילתה. |
| Column Existence Expectation | כלל מצטבר שבודק אם עמודה מסוימת קיימת בטבלה. הכלל הזה דורש הרשאות bigquery.tables.get, bigquery.tables.list ו-bigquery.datasets.get בטבלה ובמערך הנתונים שעליהם מופעלת השאילתה. |
| מה אמור לקרות | כלל צבירה שבודק אם הנתונים האחרונים בעמודה חדשים יותר ממרווח זמן שצוין. |
| Grouped Freshness Expectation | כלל צבירה שבודק אם הנתונים המקובצים האחרונים בעמודה חדשים יותר ממרווח זמן שצוין. |
| Ordered Schema Match Expectation | כלל מצטבר שבודק אם העמודות המסודרות בטבלה זהות בדיוק לרשימה מסודרת שצוינה. |
| Row Count Equality Expectation | כלל צבירה שבודק אם מספר השורות בטבלה שווה לערך שצוין. |
| Row Count Range Expectation | כלל מצטבר שבודק אם מספר השורות בטבלה נמצא בטווח שצוין. |
| מה אמור לקרות | כלל מצטבר שבודק אם קבוצת העמודות בטבלה מכילה את כל העמודות בקבוצה שצוינה. הכלל הזה דורש הרשאות bigquery.tables.get, bigquery.tables.list ו-bigquery.datasets.get בטבלה ובמערך הנתונים שעליהם מופעלת השאילתה. |
| מה אמור לקרות כשמגדירים החרגה של סכימה | כלל מצטבר שבודק אם העמודות בטבלה לא נמצאות בקבוצה שצוינה. הכלל הזה דורש הרשאות bigquery.tables.get, bigquery.tables.list ו-bigquery.datasets.get בטבלה ובמערך הנתונים שעליהם מופעלת השאילתה. |
| מה אמור לקרות בהתאמה לסכימה | כלל מצטבר שבודק אם העמודות בטבלה תואמות בדיוק לקבוצה שצוינה. הכלל הזה דורש הרשאות bigquery.tables.get, bigquery.tables.list ו-bigquery.datasets.get בטבלה ובמערך הנתונים שעליהם מופעלת השאילתה. |
| Table Comparison Aggregate Equality Expectation | כלל מצטבר שבודק אם התוצאה של ביטוי מצטבר זהה בטבלה הנוכחית ובטבלת הפניה שצוינה. |
| Table Comparison Aggregate Range Expectation | כלל מצטבר שבודק אם התוצאה של ביטוי מצטבר בטבלה הנוכחית חורגת מטבלת הייחוס ביותר מערך סף שצוין. |
| Table Comparison Row Count Equality Expectation | כלל מצטבר שבודק אם מספר השורות בטבלה הנוכחית שווה למספר השורות בטבלת הפניה שצוינה, עם אפשרות לסינון שורות לפני הספירה. |
| Table Comparison Row Count Factor Equality Expectation | כלל מצטבר שבודק אם מספר השורות בטבלה הנוכחית שווה למכפלה של מספר השורות בטבלת הפניה שצוינה, עם אפשרות לסינון שורות לפני הספירה. |
ערכים חסרים, ערכים ייחודיים וסוגים
| שם | תיאור |
|---|---|
| מה אמור לקרות לפי סוג העמודה | כלל מצטבר שבודק אם סוג הנתונים בעמודה תואם לסוג שצוין. הכלל הזה דורש הרשאות bigquery.tables.get, bigquery.tables.list ו-bigquery.datasets.get בטבלה ובמערך הנתונים שעליהם מופעלת השאילתה. |
| רשימת סוגי העמודות | כלל מצטבר שבודק אם סוג הנתונים של העמודה נמצא בקבוצה שצוינה. הכלל הזה דורש הרשאות bigquery.tables.get, bigquery.tables.list ו-bigquery.datasets.get בטבלה ובמערך הנתונים שעליהם מופעלת השאילתה. |
| Non Null Expectation | כלל ברמת השורה שבודק אם הערך בכל עמודה הוא לא null. |
| Null Expectation | כלל ברמת השורה שבודק אם כל ערך בעמודה הוא null. |
| String Case Expectation | כלל ברמת השורה שבודק אם מחרוזת של ערך בעמודה תואמת לרישיות שצוינה. |
| מה אמור לקרות | כלל ברמת השורה שבודק אם כל ערך בעמודה הוא ייחודי. |
קבוצות וטווחים
| שם | תיאור |
|---|---|
| ירידה בציפיות | כלל צבירה שבודק אם הערכים בעמודה יורדים. המערכת מתעלמת מהערכים של NULL. הפונקציה מחזירה את השורה הראשונה שבה לא מתקיימת הציפייה. |
| הגברת הציפייה | כלל מצטבר שבודק אם הערכים בעמודה עולים. המערכת מתעלמת מהערכים של NULL. הפונקציה מחזירה את השורה הראשונה שבה לא מתקיימת הציפייה. |
| Range Expectation | כלל ברמת השורה שבודק אם כל ערך בעמודה נמצא בטווח שצוין. |
| Reference Set Expectation | כלל ברמת השורה שבודק אם כל ערך בעמודה כלול בקבוצת הפניה שצוינה. |
| הגדרת ציפייה להחרגה | כלל ברמת השורה שבודק אם כל ערך בעמודה לא נכלל בקבוצה שצוינה. |
| הגדרת ציפיות | כלל ברמת השורה שבודק אם כל ערך בעמודה כלול בקבוצה שצוינה. |
התאמת מחרוזות
| שם | תיאור |
|---|---|
| מה אמור לקרות כשמגדירים החרגה של תבנית | כלל ברמת השורה שבודק אם הערך של כל עמודה לא תואם לתבנית SQL LIKE שצוינה. |
| רשימת ציפיות להחרגת דפוסים | כלל ברמת השורה שבודק אם כל ערך בעמודה לא תואם לאף אחת מתבניות ה-SQL LIKE שצוינו. |
| Pattern Expectation | כלל ברמת השורה שבודק אם כל ערך בעמודה תואם לדפוס SQL LIKE שצוין. |
| רשימת דפוסי ציפיות | כלל ברמת השורה שבודק אם כל ערך בעמודה תואם לפחות לאחת מתבניות ה-SQL שצוינו LIKE. |
| Regex Exclusion Expectation | כלל ברמת השורה שבודק אם הערך של כל עמודה לא תואם לביטוי רגולרי שצוין. |
| רשימת החרגות של ביטויי Regex | כלל ברמת השורה שבודק אם הערך בכל עמודה לא תואם לאף אחד מהביטויים הרגולריים שצוינו. |
| Regex Expectation | כלל ברמת השורה שבודק אם כל ערך בעמודה תואם לביטוי רגולרי שצוין. |
| רשימת ביטויים רגולריים צפויים | כלל ברמת השורה שבודק אם כל ערך בעמודה תואם לפחות לאחד מהביטויים הרגולריים שצוינו. |
| String Length Equality Expectation | כלל ברמת השורה שבודק אם אורך המחרוזת של כל ערך בעמודה שווה לערך שצוין. |
| הטווח של אורך המחרוזת | כלל ברמת השורה שבודק אם אורך המחרוזת של כל ערך בעמודה נמצא בטווח שצוין. |
פונקציות צבירה
| שם | תיאור |
|---|---|
| Distinct Values Containment Expectation | כלל מצטבר שבודק אם קבוצת הערכים הנפרדים בעמודה מכילה את כל הערכים בקבוצה שצוינה. |
| Distinct Values Count Equality Expectation | כלל צבירה שבודק אם מספר הערכים הייחודיים בעמודה שווה לערך שצוין. |
| Distinct Values Count Range Expectation | כלל צבירה שבודק אם מספר הערכים הייחודיים בעמודה נמצא בטווח שצוין. |
| התאמה של ערכים נפרדים לציפיות | כלל מצטבר שבודק אם קבוצת הערכים הייחודיים בעמודה זהה בדיוק לקבוצה שצוינה. |
| הערך הצפוי של שיעור הערכים הנפרדים | כלל צבירה שבודק אם היחס בין מספר הערכים הייחודיים בעמודה לבין מספר השורות הכולל נמצא בטווח שצוין. |
| Distinct Values Set Expectation | כלל מצטבר שבודק אם כל ערך נפרד בעמודה נכלל בקבוצה שצוינה. |
| טווח מקסימלי צפוי | כלל צבירה שבודק אם הערך המקסימלי בעמודה נמצא בטווח שצוין. |
| Mean Range Expectation | כלל מצטבר שבודק אם הממוצע של העמודה נמצא בטווח שצוין. אם מוחזר סוג של נקודה צפה, התוצאה של הפונקציה AVG() לא דטרמיניסטית. |
| הטווח החציוני הצפוי | כלל מצטבר שבודק אם החציון של העמודה נמצא בטווח שצוין. |
| הערך המינימלי בטווח | כלל צבירה שבודק אם הערך המינימלי בעמודה נמצא בטווח שצוין. |
| Mode Range Expectation | כלל צבירה שבודק אם כל הערכים השכיחים ביותר בעמודה נמצאים בטווח שצוין. אם יש כמה מצבים, כל אחד מהם ייבדק מול הטווח וכל המצבים שלא יעמדו בדרישות יוחזרו. |
| Mode Set Expectation | כלל מצטבר שבודק אם כל הערכים השכיחים ביותר בעמודה נמצאים בטווח שצוין. NULL המערכת מתעלמת מערכים בחישוב השכיח. אם יש כמה ערכים שמופיעים בתדירות הכי גבוהה, כל אחד מהם ייבדק מול הקבוצה, וכל הערכים שלא יעברו את הבדיקה יוחזרו במערך. |
| טווח צפוי של קוונטיל | כלל מצטבר שבודק אם הערך באחוזון שצוין בעמודה נמצא בטווח שצוין. |
| טווח סטיית התקן הצפוי | כלל מצטבר שבודק אם סטיית התקן של העמודה נמצאת בטווח שצוין. |
| Sum Range Expectation | כלל מצטבר שבודק אם סכום העמודה נמצא בטווח שצוין. אם מוחזר סוג של נקודה צפה, התוצאה של הפונקציה SUM() לא דטרמיניסטית. |
| Table Comparison Unique Values Count Equality Expectation | כלל מצטבר שבודק אם מספר הערכים הייחודיים בעמודה שצוינה זהה בטבלה הנוכחית ובטבלת ההפניה. |
מרובה-עמודות
| שם | תיאור |
|---|---|
| Column Comparison Equality Expectation | כלל ברמת השורה שבודק אם הערך בעמודה א' שווה לערך בעמודה ב' בכל שורה. |
| השוואת עמודות – ערך גדול יותר | כלל ברמת השורה שבודק אם הערך בעמודה א' גדול מהערך בעמודה ב' בכל שורה. |
| מה אמור לקרות כשמגדירים זוגות של עמודות | כלל מצטבר שבודק אם הערכים המזווגים מעמודה A ומעמודה B נכללים בקבוצה שצוינה. |
| Multi Column Sum Equality Expectation | כלל מצטבר שבודק אם סכום כל השורות ברשימה שצוינה של עמודות שווה לערך שצוין. אם מוחזר סוג של נקודה צפה, התוצאה של הפונקציה SUM() לא דטרמיניסטית. |
| מה אמור לקרות כשמגדירים ייחודיות של כמה עמודות | כלל ברמת השורה שבודק אם שילוב הערכים ברשימה שצוינה של עמודות הוא ייחודי לכל שורה (לדוגמה, מפתח ראשי מרובה עמודות). |
| הציפייה לגבי הייחודיות של עמודות הרשומות | כלל ברמת השורה שבודק אם הערכים ברשימה שצוינה של עמודות הם ייחודיים בכל רשומה (שורה). שימו לב: יכול להיות שיהיו רשומות כפולות. |
פונקציות של התפלגות
| שם | תיאור |
|---|---|
| הערך הצפוי של השלמת חלק התאריך | כלל מצטבר שבודק אם בטבלה יש נתונים לכל מרווח (לדוגמה, כל יום) בטווח תאריכים. |
| מה אמור לקרות לערכים של סטיית התקן | כלל ברמת השורה שבודק אם כל ערך בעמודה נמצא בטווח של מספר מסוים של סטיות תקן מהממוצע של העמודה. |
תנאים כלליים
| שם | תיאור |
|---|---|
| Row Condition Expectation | כלל ברמת השורה שבודק אם כל שורה בטבלה עומדת בתנאי שצוין. |
| SQL Assertion | כלל צבירה שמעריך את מספר השורות שמוחזרות עבור ההצהרה שצוינה. אם מוחזרות שורות כלשהן, הכלל הזה נכשל. |
| מה אמור לקרות | כלל מצטבר שבודק אם הביטוי שצוין הוא True לגבי טבלה. |
המאמרים הבאים
- איך משתמשים בתכונה 'איכות נתונים אוטומטית' כדי לאמת את הנתונים.
- מידע ולמידה על ניהול מטא-נתונים ב-Knowledge Catalog.
- מידע נוסף על פרופילים של נתונים
- איך משתמשים מחדש בכללים לאיכות נתונים