סריקה של בעיות באיכות הנתונים
במאמר הזה מוסבר איך להשתמש ב-BigQuery וב-Dataplex Universal Catalog יחד כדי לוודא שהנתונים עומדים בדרישות האיכות שלכם. בעזרת התכונה 'בקרת איכות נתונים אוטומטית ב-Dataplex Universal Catalog' אתם יכולים להגדיר ולמדוד את איכות הנתונים בטבלאות שלכם ב-BigQuery. אתם יכולים להפוך את סריקת הנתונים לאוטומטית, לאמת את הנתונים בהתאם לכללים מוגדרים ולתעד התראות אם הנתונים לא עומדים בדרישות האיכות.
מידע נוסף על איכות נתונים אוטומטית זמין במאמר סקירה כללית של איכות נתונים אוטומטית.
לפני שמתחילים
-
Enable the Dataplex API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles. - אופציונלי: אם רוצים ש-Dataplex Universal Catalog ייצור המלצות לכללי איכות נתונים על סמך התוצאות של סריקת פרופיל נתונים, צריך ליצור ולהפעיל את סריקת פרופיל הנתונים.
התפקידים הנדרשים
בקטע הזה מוסבר על התפקידים וההרשאות ב-IAM שנדרשים כדי להשתמש בסריקות של איכות הנתונים ב-Dataplex Universal Catalog.
תפקידים והרשאות של משתמשים
כדי לקבל את ההרשאות שדרושות להרצה ולניהול של סריקות איכות הנתונים, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים:
-
מריצים סריקה של איכות הנתונים בטבלה ב-BigQuery:
-
BigQuery Job User (
roles/bigquery.jobUser) בפרויקט כדי להריץ משימות סריקה -
BigQuery Data Viewer (צפייה בנתוני BigQuery) (
roles/bigquery.dataViewer) בטבלת BigQuery שרוצים לסרוק
-
BigQuery Job User (
-
פרסום תוצאות של סריקת איכות נתונים ב-Dataplex Universal Catalog:
-
BigQuery Data Editor (
roles/bigquery.dataEditor) בטבלה שנסרקה -
Dataplex Catalog Editor (
roles/dataplex.catalogEditor) on the@bigqueryentry group in the same location as the table
-
BigQuery Data Editor (
-
ביצוע משימות ספציפיות במשאבי
DataScan:-
Dataplex DataScan Administrator (
roles/dataplex.dataScanAdmin) on the project for full access -
Dataplex DataScan Creator (
roles/dataplex.dataScanCreator) בפרויקט כדי ליצור סריקות -
Dataplex DataScan Editor (
roles/dataplex.dataScanEditor) בפרויקט לגישת כתיבה -
Dataplex DataScan Viewer (
roles/dataplex.dataScanViewer) בפרויקט כדי לקרוא מטא-נתונים של סריקה -
Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) בפרויקט כדי לקרוא נתוני סריקה, כולל כללים ותוצאות
-
Dataplex DataScan Administrator (
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות להרצה ולניהול של סריקות איכות נתונים. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי להריץ סריקות של איכות הנתונים ולנהל אותן, נדרשות ההרשאות הבאות:
-
מריצים סריקה של איכות הנתונים בטבלה ב-BigQuery:
-
bigquery.jobs.createבפרויקט כדי להריץ משימות סריקה -
bigquery.tables.getבטבלת BigQuery שרוצים לסרוק -
bigquery.tables.getDataבטבלת BigQuery שרוצים לסרוק
-
-
פרסום תוצאות של סריקת איכות נתונים ב-Dataplex Universal Catalog:
-
bigquery.tables.updateבטבלה שנסרקה -
dataplex.entryGroups.useDataQualityScorecardAspectבכרטיסייה@bigqueryשל קבוצת הערכים באותו מיקום כמו הטבלה
-
-
יצירת
DataScan:dataplex.datascans.createבפרויקט -
מחיקת
DataScan:dataplex.datascans.deleteבפרויקט -
כדי להציג את
DataScanהמטא-נתונים:dataplex.datascans.getבפרויקט -
צפייה בפרטים של
DataScan, כולל כללים ותוצאות:dataplex.datascans.getDataבפרויקט -
רשימת
DataScan:dataplex.datascans.listבפרויקט -
להריץ
DataScan:dataplex.datascans.runבפרויקט -
עדכון של
DataScan:dataplex.datascans.updateבפרויקט -
קבלת או הגדרת מדיניות IAM לגבי
DataScan:-
dataplex.datascans.getIamPolicyבפרויקט -
dataplex.datascans.setIamPolicyבפרויקט
-
יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
אם אתם צריכים לגשת לעמודות שמוגנות על ידי מדיניות גישה ברמת העמודה ב-BigQuery, אתם צריכים גם הרשאות לעמודות האלה.
תפקידים והרשאות של חשבון שירות ב-Dataplex Universal Catalog
אם לא יצרתם סריקות של איכות נתונים או פרופיל נתונים, או אם אין לכם אגם Dataplex Universal Catalog בפרויקט הזה, אתם צריכים ליצור מזהה שירות על ידי הפעלת הפקודה:
gcloud beta services identity create --service=dataplex.googleapis.com.
הפקודה הזו מחזירה מזהה שירות של Dataplex Universal Catalog אם הוא קיים.
כדי לוודא שלחשבון השירות של Dataplex Universal Catalog בפרויקט שמכיל את הסריקה של איכות הנתונים יש את ההרשאות שנדרשות לקריאת נתונים ממקורות שונים ולייצוא תוצאות, צריך לבקש מהאדמין להקצות את תפקידי ה-IAM הבאים לחשבון השירות של Dataplex Universal Catalog בפרויקט שמכיל את הסריקה של איכות הנתונים:
-
קריאת נתונים מטבלאות ב-BigQuery:
BigQuery Data Viewer (
roles/bigquery.dataViewer) בטבלאות ב-BigQuery שצריך לסרוק ובכל טבלה אחרת שמפנים אליה בכללים -
ייצוא תוצאות הסריקה לטבלה ב-BigQuery:
BigQuery Data Editor (
roles/bigquery.dataEditor) במערך הנתונים ובטבלה של התוצאות -
סריקת נתונים ב-BigQuery שמסודרים באגם של Dataplex Universal Catalog:
-
Dataplex Metadata Reader (
roles/dataplex.metadataReader) on Dataplex resources -
בעל הרשאת צפייה ב-Dataplex (
roles/dataplex.viewer) במשאבי Dataplex
-
Dataplex Metadata Reader (
-
סריקה של טבלה חיצונית ב-BigQuery מ-Cloud Storage:
Storage Object Viewer (
roles/storage.objectViewer) on the קטגוריה של Cloud Storage
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות לקריאת נתונים ממקורות שונים ולייצוא תוצאות. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי לקרוא נתונים ממקורות שונים ולייצא תוצאות, נדרשות ההרשאות הבאות:
-
קריאת נתונים מטבלה ב-BigQuery:
-
bigquery.tables.getבטבלאות BigQuery -
bigquery.tables.getDataבטבלאות BigQuery
-
-
ייצוא תוצאות הסריקה לטבלה ב-BigQuery:
-
bigquery.datasets.getבטבלה ובמערך הנתונים של התוצאות -
bigquery.tables.createבטבלה ובמערך הנתונים של התוצאות -
bigquery.tables.getבטבלה ובמערך הנתונים של התוצאות -
bigquery.tables.getDataבטבלה ובמערך הנתונים של התוצאות -
bigquery.tables.updateבטבלה ובמערך הנתונים של התוצאות -
bigquery.tables.updateDataבטבלה ובמערך הנתונים של התוצאות
-
-
סריקת נתונים ב-BigQuery שמסודרים באגם של Dataplex Universal Catalog:
-
dataplex.lakes.listבמשאבי Dataplex -
dataplex.lakes.getבמשאבי Dataplex -
dataplex.zones.listבמשאבי Dataplex -
dataplex.zones.getבמשאבי Dataplex -
dataplex.entities.listבמשאבי Dataplex -
dataplex.entities.getבמשאבי Dataplex -
dataplex.operations.getבמשאבי Dataplex
-
-
סריקה של טבלה חיצונית ב-BigQuery מ-Cloud Storage:
-
storage.buckets.getבקטגוריה של Cloud Storage -
storage.objects.getבקטגוריה של Cloud Storage
-
יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות של Dataplex Universal Catalog בפרויקט שמכיל את הסריקה של איכות הנתונים את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
אם אתם צריכים לגשת לעמודות שמוגנות על ידי מדיניות גישה ברמת העמודה ב-BigQuery, אתם צריכים להקצות הרשאות לעמודות האלה לחשבון השירות של Dataplex Universal Catalog.
אם בטבלה מופעלות מדיניות גישה ברמת השורה ב-BigQuery, אפשר לסרוק רק את השורות שחשבון השירות של Dataplex Universal Catalog יכול לראות. הערה: הרשאות הגישה של משתמשים בודדים לא נבדקות במדיניות ברמת השורה.
יצירת סריקה של איכות הנתונים
המסוף
במסוף Google Cloud , בדף BigQuery Metadata curation (ניהול מטא-נתונים), עוברים לכרטיסייה Data profiling & quality (פרופיל נתונים ואיכות).
לוחצים על יצירת סריקה של איכות הנתונים.
בחלון Define scan (הגדרת סריקה), ממלאים את השדות הבאים:
אופציונלי: מזינים שם לתצוגה.
מזינים מזהה. מוסכמות למתן שמות למשאבים
אופציונלי: מזינים תיאור.
בשדה טבלה, לוחצים על עיון. בוחרים את הטבלה שרוצים לסרוק ולוחצים על בחירה. המערכת תומכת רק בטבלאות BigQuery רגילות.
בטבלאות במערכי נתונים עם מספר אזורים, בוחרים אזור שבו ייסרק הנתונים.
כדי לעיין בטבלאות שמאורגנות באגמי Dataplex Universal Catalog, לוחצים על Browse within Dataplex Lakes.
בשדה היקף, בוחרים באפשרות מצטבר או כל הנתונים.
- אם בוחרים באפשרות מצטבר: בשדה עמודת חותמת הזמן, בוחרים עמודה מהסוגים
DATEאוTIMESTAMPמטבלת BigQuery, שערכיה גדלים ככל שמוסיפים רשומות חדשות, ושניתן להשתמש בה כדי לזהות רשומות חדשות. יכולה להיות עמודה שמחלקת את הטבלה למחיצות.
- אם בוחרים באפשרות מצטבר: בשדה עמודת חותמת הזמן, בוחרים עמודה מהסוגים
כדי לסנן את הנתונים, מסמנים את תיבת הסימון סינון שורות. צריך לספק מסנן שורות שמורכב מביטוי SQL תקין שאפשר להשתמש בו כחלק מסעיף
WHEREבתחביר GoogleSQL. לדוגמה,col1 >= 0. המסנן יכול להיות שילוב של כמה תנאים של עמודות. לדוגמה,col1 >= 0 AND col2 < 10.כדי לדגום את הנתונים, בוחרים אחוז דגימה ברשימה גודל הדגימה. בוחרים ערך באחוזים בטווח שבין 0.0% ל-100.0%, עם עד 3 ספרות אחרי הנקודה העשרונית. במערכי נתונים גדולים, מומלץ לבחור אחוז דגימה נמוך יותר. לדוגמה, אם הטבלה היא בגודל 1 PB, והזנתם ערך בין 0.1% ל-1.0%, הסריקה של איכות הנתונים תדגום בין 1 ל-10 TB של נתונים. בסריקות מצטברות של נתונים, סריקת איכות הנתונים חלה על התוספת האחרונה.
כדי לפרסם את התוצאות של סריקת איכות הנתונים כמטא-נתונים של Dataplex Universal Catalog, מסמנים את תיבת הסימון פרסום התוצאות ב-Dataplex Catalog.
אפשר לראות את התוצאות האחרונות של הסריקה בכרטיסייה איכות הנתונים בדפים של BigQuery ו-Dataplex Universal Catalog עבור טבלת המקור. כדי לאפשר למשתמשים לגשת לתוצאות הסריקה שפורסמו, אפשר לעיין בקטע הענקת גישה לתוצאות סריקת איכות הנתונים במסמך הזה.
בקטע תזמון, בוחרים באחת מהאפשרויות הבאות:
חזרה: הפעלת סריקת איכות הנתונים לפי תזמון: שעתי, יומי, שבועי, חודשי או בהתאמה אישית. מציינים את תדירות הסריקה ואת השעה שבה היא תתבצע. אם בוחרים באפשרות 'בהתאמה אישית', צריך להשתמש בפורמט cron כדי לציין את לוח הזמנים.
על פי דרישה: הרצת הסריקה של איכות הנתונים על פי דרישה.
חד-פעמי: הפעל את סריקת איכות הנתונים פעם אחת עכשיו, והסר את הסריקה אחרי תקופת אורך החיים (TTL).
אורך חיים: ערך אורך החיים הוא משך הזמן שחלף בין מועד ההרצה של הסריקה לבין מועד המחיקה שלה. סריקה של איכות הנתונים ללא ציון של זמן החיים נמחקת אוטומטית 24 שעות אחרי ההפעלה שלה. אורך החיים יכול להיות בין 0 שניות (מחיקה מיידית) ל-365 ימים.
לוחצים על Continue.
בחלון Data quality rules (כללים לאיכות הנתונים), מגדירים את הכללים שרוצים להגדיר לסריקה הזו של איכות הנתונים.
לוחצים על הוספת כללים ובוחרים באחת מהאפשרויות הבאות.
המלצות שמבוססות על פרופיל: יצירת כללים מההמלצות על סמך סריקת פרופיל נתונים קיימת.
בחירת עמודות: בוחרים את העמודות שרוצים לקבל עבורן המלצות לכללים.
Choose scan project (בחירת פרויקט לסריקה): אם סריקת פרופיל הנתונים נמצאת בפרויקט אחר מהפרויקט שבו אתם יוצרים את סריקת איכות הנתונים, צריך לבחור את הפרויקט שממנו יתבצעו סריקות הפרופיל.
בחירת תוצאות פרופיל: בוחרים תוצאה אחת או יותר של פרופיל ולוחצים על אישור. כך תתקבל רשימה של כללים מוצעים שאפשר להשתמש בהם כנקודת התחלה.
מסמנים את התיבות לצד הכללים שרוצים להוסיף ולוחצים על בחירה. אחרי שבוחרים את הכללים, הם מתווספים לרשימת הכללים הנוכחית. אחר כך תוכלו לערוך את הכללים.
סוגי כללים מובְנים: יצירת כללים מכללים מוגדרים מראש. רשימת הכללים המוגדרים מראש
בחירת עמודות: בוחרים את העמודות שרוצים לבחור עבורן כללים.
בחירת סוגי כללים: בוחרים את סוגי הכללים שרוצים לבחור מתוכם ולוחצים על אישור. סוגי הכללים שיופיעו תלויים בעמודות שבחרתם.
מסמנים את התיבות לצד הכללים שרוצים להוסיף ולוחצים על בחירה. אחרי הבחירה, הכללים יתווספו לרשימת הכללים הנוכחית. אחר כך תוכלו לערוך את הכללים.
כלל לבדיקת שורות ב-SQL: יוצרים כלל SQL בהתאמה אישית להחלה על כל שורה.
בקטע מאפיין, בוחרים מאפיין אחד.
בקטע סף המעבר, בוחרים את אחוז הרשומות שצריך לעבור את הבדיקה.
בעמודה שם העמודה, בוחרים עמודה.
בשדה Provide a SQL expression (הזנת ביטוי SQL), מזינים ביטוי SQL שהערך המחושב שלו הוא בוליאני
true(עבר) אוfalse(נכשל). מידע נוסף זמין במאמר בנושא סוגים נתמכים של כללי SQL בהתאמה אישית ובדוגמאות במאמר הגדרת כללים לאיכות הנתונים.לוחצים על הוספה.
כלל בדיקה של צבירת SQL: יצירת כלל מותאם אישית של תנאי טבלת SQL.
בקטע מאפיין, בוחרים מאפיין אחד.
בעמודה שם העמודה, בוחרים עמודה.
בשדה Provide a SQL expression (הזנת ביטוי SQL), מזינים ביטוי SQL שהערך המחושב שלו הוא בוליאני
true(עבר) אוfalse(נכשל). מידע נוסף זמין במאמר בנושא סוגים נתמכים של כללי SQL בהתאמה אישית ובדוגמאות במאמר הגדרת כללים לאיכות הנתונים.לוחצים על הוספה.
כלל טענת נכוֹנוּת של SQL: יצירת כלל טענת נכוֹנוּת של SQL מותאם אישית כדי לבדוק אם הנתונים נמצאים במצב לא תקין.
בקטע מאפיין, בוחרים מאפיין אחד.
אופציונלי: בשם העמודה, בוחרים עמודה.
בשדה Provide a SQL statement (הזנת הצהרת SQL), מזינים הצהרת SQL שמחזירה שורות שתואמות למצב לא תקין. אם מוחזרות שורות כלשהן, הכלל הזה נכשל. משמיטים את הנקודה-פסיק בסוף הצהרת ה-SQL. מידע נוסף זמין במאמרים בנושא סוגים נתמכים של כללי SQL בהתאמה אישית ובקטע הדוגמאות במאמר הגדרת כללים לאיכות הנתונים.
לוחצים על הוספה.
אופציונלי: לכל כלל למדידת איכות נתונים, אפשר להקצות שם כלל מותאם אישית לשימוש במעקב ובשליחת התראות, ותיאור. כדי לעשות את זה, עורכים כלל ומציינים את הפרטים הבאים:
- שם הכלל: מזינים שם מותאם אישית לכלל, באורך של עד 63 תווים. שם הכלל יכול לכלול אותיות (a-z, A-Z), ספרות (0-9) ומקפים (-). הוא חייב להתחיל באות ולהסתיים בספרה או באות.
- תיאור: מזינים תיאור של הכלל באורך של עד 1,024 תווים.
חוזרים על השלבים הקודמים כדי להוסיף עוד כללים לסריקת איכות הנתונים. בסיום, לוחצים על המשך.
אופציונלי: ייצוא תוצאות הסריקה לטבלת BigQuery רגילה. בקטע Export scan results to BigQuery table (ייצוא תוצאות הסריקה לטבלה ב-BigQuery), מבצעים את הפעולות הבאות:
בשדה Select BigQuery dataset (בחירת מערך נתונים ב-BigQuery), לוחצים על Browse (עיון). בוחרים מערך נתונים ב-BigQuery לאחסון התוצאות של סריקת איכות הנתונים.
בשדה BigQuery table (טבלה ב-BigQuery), מציינים את הטבלה שבה יאוחסנו תוצאות הסריקה של איכות הנתונים. אם אתם משתמשים בטבלה קיימת, ודאו שהיא תואמת לסכימת טבלת הייצוא. אם הטבלה שצוינה לא קיימת, Dataplex Universal Catalog יוצר אותה בשבילכם.
אופציונלי: מוסיפים תוויות. תוויות הן צמדי מפתח/ערך שמאפשרים לקשר בין אובייקטים או ביניהם לבין משאבים אחרים של Google Cloud .
אופציונלי: אפשר להגדיר דוחות של התראות באימייל כדי להודיע לאנשים על הסטטוס והתוצאות של משימת סריקה של איכות הנתונים. בקטע דוח התראות, לוחצים על הוספת מזהה אימייל ומזינים עד חמש כתובות אימייל. לאחר מכן בוחרים את התרחישים שעבורם רוצים לשלוח דוחות:
- ציון איכות (<=): שליחת דוח כשהעבודה מסתיימת בהצלחה עם ציון איכות נתונים נמוך מציון היעד שצוין. מזינים ציון איכות יעד בין 0 ל-100.
- כשלים במשימות: נשלח דוח כשהמשימה עצמה נכשלת, בלי קשר לתוצאות של איכות הנתונים.
- השלמת העבודה (הצלחה או כישלון): שליחת דוח כשהעבודה מסתיימת, ללא קשר לתוצאות של איכות הנתונים.
לוחצים על יצירה.
אחרי שיוצרים את הסריקה, אפשר להריץ אותה בכל שלב בלחיצה על הפעלה עכשיו.
gcloud
כדי ליצור סריקה של איכות הנתונים, משתמשים בפקודה gcloud dataplex datascans create data-quality.
אם נתוני המקור מאורגנים באגם Dataplex Universal Catalog, צריך לכלול את הדגל --data-source-entity:
gcloud dataplex datascans create data-quality DATASCAN \
--location=LOCATION \
--data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
--data-source-entity=DATA_SOURCE_ENTITY
אם נתוני המקור לא מאורגנים באגם של Dataplex Universal Catalog, צריך לכלול את הדגל --data-source-resource:
gcloud dataplex datascans create data-quality DATASCAN \
--location=LOCATION \
--data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
--data-source-resource=DATA_SOURCE_RESOURCE
מחליפים את המשתנים הבאים:
-
DATASCAN: השם של הסריקה של איכות הנתונים. LOCATION: האזור שבו תיצור את סריקת איכות הנתונים. Google Cloud-
DATA_QUALITY_SPEC_FILE: הנתיב לקובץ JSON או YAML שמכיל את המפרטים של סריקת איכות הנתונים. הקובץ יכול להיות קובץ מקומי או נתיב Cloud Storage עם הקידומתgs://. משתמשים בקובץ הזה כדי לציין את כללי איכות הנתונים לסריקה. אפשר גם לציין פרטים נוספים בקובץ הזה, כמו פילטרים, אחוז הדגימה ופעולות אחרי הסריקה, כמו ייצוא ל-BigQuery או שליחת דוחות של התראות באימייל. ראו תיעוד של ייצוג JSON ודוגמה לייצוג YAML. -
DATA_SOURCE_ENTITY: ישות Dataplex Universal Catalog שמכילה את הנתונים לסריקת איכות הנתונים. לדוגמה,projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity. -
DATA_SOURCE_RESOURCE: השם של המשאב שמכיל את הנתונים לסריקת איכות הנתונים. לדוגמה,//bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.
C#
C#
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Go
Go
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
Node.js
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי ליצור סריקה של איכות הנתונים, משתמשים ב-method dataScans.create.
הבקשה הבאה יוצרת סריקה חד-פעמית של איכות הנתונים:
POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?data_scan_id=DATASCAN_ID { "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID" }, "type": "DATA_QUALITY", "executionSpec": { "trigger": { "oneTime": { "ttl_after_scan_completion": "120s" } } }, "dataQualitySpec": { "rules": [ { "nonNullExpectation": {}, "column": "COLUMN_NAME", "dimension": "DIMENSION", "threshold": 1 } ] } }
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט. -
LOCATION: האזור שבו ייסרק המידע כדי לבדוק את איכות הנתונים. -
DATASCAN_ID: המזהה של סריקת איכות הנתונים. -
DATASET_ID: המזהה של מערך הנתונים ב-BigQuery. -
TABLE_ID: המזהה של הטבלה ב-BigQuery. COLUMN_NAME: שם העמודה של הכלל.-
DIMENSION: המאפיין של הכלל, לדוגמהVALIDITY.
אם רוצים ליצור כללים לסריקת איכות הנתונים באמצעות המלצות לכללים שמבוססות על התוצאות של סריקת פרופיל הנתונים, צריך לקבל את ההמלצות באמצעות קריאה לשיטה dataScans.jobs.generateDataQualityRules בסריקת פרופיל הנתונים.
הפעלת סריקה של איכות הנתונים
המסוף
במסוף Google Cloud , בדף BigQuery Metadata curation (ניהול מטא-נתונים), עוברים לכרטיסייה Data profiling & quality (פרופיל נתונים ואיכות).
לוחצים על סריקת איכות הנתונים כדי להריץ אותה.
לוחצים על הפעלה מיידית.
gcloud
כדי להריץ סריקה של איכות הנתונים, משתמשים בפקודה gcloud dataplex datascans run:
gcloud dataplex datascans run DATASCAN \ --location=LOCATION \
מחליפים את המשתנים הבאים:
-
LOCATION: האזור Google Cloud שבו נוצר הסריקה של איכות הנתונים. -
DATASCAN: השם של הסריקה של איכות הנתונים.
C#
C#
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Go
Go
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי להריץ סריקה של איכות הנתונים, משתמשים ב-method dataScans.run.
צפייה בתוצאות של סריקת איכות הנתונים
המסוף
במסוף Google Cloud , בדף BigQuery Metadata curation (ניהול מטא-נתונים), עוברים לכרטיסייה Data profiling & quality (פרופיל נתונים ואיכות).
לוחצים על השם של סריקת איכות הנתונים.
בקטע סקירה כללית מוצג מידע על המשימות האחרונות, כולל מתי הסריקה בוצעה, מספר הרשומות שנסרקו בכל משימה, אם כל הבדיקות של איכות הנתונים עברו, ואם היו כשלים, מספר הבדיקות של איכות הנתונים שנכשלו.
בקטע הגדרות סריקת איכות הנתונים מוצגים פרטים על הסריקה.
כדי לראות מידע מפורט על עבודה, כמו ציוני איכות נתונים שמציינים את אחוז הכללים שעברו, אילו כללים נכשלו ויומני העבודה, לוחצים על הכרטיסייה היסטוריית העבודות. לאחר מכן לוחצים על מזהה משרה.
gcloud
כדי לראות את התוצאות של משימת סריקה של איכות הנתונים, משתמשים בפקודה gcloud dataplex datascans jobs describe:
gcloud dataplex datascans jobs describe JOB \ --location=LOCATION \ --datascan=DATASCAN \ --view=FULL
מחליפים את המשתנים הבאים:
-
JOB: מזהה המשימה של משימת הסריקה של איכות הנתונים. -
LOCATION: האזור שבו נוצרה סריקת איכות הנתונים. Google Cloud -
DATASCAN: השם של סריקת איכות הנתונים שהעבודה שייכת לה. -
--view=FULL: כדי לראות את תוצאת עבודת הסריקה, מצייניםFULL.
C#
C#
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Go
Go
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי לראות את תוצאות הסריקה של איכות הנתונים, משתמשים בשיטה dataScans.get.
הצגת התוצאות שפורסמו
אם התוצאות של סריקת איכות הנתונים מתפרסמות כמטא-נתונים של Dataplex Universal Catalog, אפשר לראות את התוצאות האחרונות של הסריקה בדפים של BigQuery ושל Dataplex Universal Catalog ב-Google Cloud Console, בכרטיסייה Data quality של טבלת המקור.
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית הימנית, לוחצים על כלי הניתוחים:

אם החלונית הימנית לא מוצגת, לוחצים על הרחבת החלונית הימנית כדי לפתוח אותה.
בחלונית Explorer, לוחצים על Datasets ואז על מערך הנתונים.
לוחצים על סקירה כללית > טבלאות, ואז בוחרים את הטבלה שרוצים לראות את תוצאות הסריקה של איכות הנתונים שלה.
לוחצים על הכרטיסייה איכות הנתונים.
מוצגות התוצאות האחרונות שפורסמו.
הצגת תוצאות סריקה היסטוריות
ב-Dataplex Universal Catalog נשמרת היסטוריית הסריקות של איכות הנתונים מ-300 המשימות האחרונות או מהשנה האחרונה, לפי המוקדם מביניהם.
המסוף
במסוף Google Cloud , בדף BigQuery Metadata curation (ניהול מטא-נתונים), עוברים לכרטיסייה Data profiling & quality (פרופיל נתונים ואיכות).
לוחצים על השם של סריקת איכות הנתונים.
לוחצים על הכרטיסייה היסטוריית המשרות.
בכרטיסייה היסטוריית המשימות מופיע מידע על משימות קודמות, כמו מספר הרשומות שנסרקו בכל משימה, סטטוס המשימה, השעה שבה המשימה הופעלה והאם כל כלל עבר או נכשל.
כדי לראות מידע מפורט על משימה, לוחצים על אחת מהמשימות בעמודה מזהה משימה.
gcloud
כדי להציג את המשימות ההיסטוריות של סריקת איכות הנתונים, משתמשים בפקודה gcloud dataplex datascans jobs list:
gcloud dataplex datascans jobs list \ --location=LOCATION \ --datascan=DATASCAN \
מחליפים את המשתנים הבאים:
-
LOCATION: האזור שבו נוצרה סריקת איכות הנתונים. Google Cloud -
DATASCAN: השם של הסריקה של איכות הנתונים שרוצים לראות את ההיסטוריה של העבודות שלה.
C#
C#
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Go
Go
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי לראות את המשימות ההיסטוריות של סריקת איכות הנתונים, משתמשים בשיטת dataScans.jobs.list.
מתן גישה לתוצאות של סריקת איכות הנתונים
כדי לאפשר למשתמשים בארגון לראות את תוצאות הסריקה:
במסוף Google Cloud , בדף BigQuery Metadata curation (ניהול מטא-נתונים), עוברים לכרטיסייה Data profiling & quality (פרופיל נתונים ואיכות).
לוחצים על הסריקה של איכות הנתונים שרוצים לשתף את התוצאות שלה.
לוחצים על הכרטיסייה Permissions.
מבצעים את הפעולות הבאות:
- כדי להעניק גישה ל-Principal, לוחצים על Grant access. מעניקים את התפקיד Dataplex DataScan DataViewer לחשבון המשתמש המשויך.
- כדי להסיר גישה מחשבון משתמש, בוחרים את החשבון שרוצים להסיר ממנו את התפקיד Dataplex DataScan DataViewer. לוחצים על הסרת הגישה ומאשרים כשמופיעה בקשה.
פתרון בעיות שקשורות לאיכות הנתונים
אפשר להגדיר התראות על כשלים באיכות הנתונים באמצעות היומנים ב-Cloud Logging. למידע נוסף, כולל דוגמאות לשאילתות, אפשר לעיין במאמר בנושא הגדרת התראות ב-Cloud Logging.
לכל עבודה עם כללים ברמת השורה שנכשלת, Dataplex Universal Catalog מספק שאילתה לקבלת הרשומות שנכשלו. מריצים את השאילתה הזו כדי לראות את הרשומות שלא תאמו לכלל.
המסוף
במסוף Google Cloud , בדף BigQuery Metadata curation (ניהול מטא-נתונים), עוברים לכרטיסייה Data profiling & quality (פרופיל נתונים ואיכות).
לוחצים על השם של סריקת איכות הנתונים שרוצים לפתור בעיות ברשומות שלה.
לוחצים על הכרטיסייה היסטוריית המשרות.
לוחצים על מזהה המשימה של המשימה שבה זוהו כשלים באיכות הנתונים.
בחלון התוצאות של העבודה שנפתח, בקטע כללים, מוצאים את העמודה שאילתה לאחזור רשומות שנכשלו. לוחצים על העתקת השאילתה ללוח בשורה של הכלל שנכשל.
מריצים את השאילתה ב-BigQuery כדי לראות את הרשומות שגרמו לכשל בעבודה.
gcloud
לא נתמך.
REST
כדי לקבל את המשימה שבה זוהו הכשלים באיכות הנתונים, משתמשים ב-method
dataScans.get.בשדה
failingRowsQueryשל אובייקט התשובה מוצגת השאילתה.מריצים את השאילתה ב-BigQuery כדי לראות את הרשומות שגרמו לכשל בעבודה.
בנוסף, Dataplex Universal Catalog מריץ את שאילתת הניפוי באגים, בתנאי שהיא נכללה במהלך יצירת הכלל. תוצאות שאילתת ניפוי הבאגים נכללות בפלט של כל כלל. התכונה הזו נמצאת בגרסת טרום-השקה.
המסוף
לא נתמך.
gcloud
לא נתמך.
REST
כדי לקבל את המשימה שבה זוהו הכשלים באיכות הנתונים, משתמשים ב-method dataScans.get.
באובייקט התגובה, השדה debugQueriesResultSets מציג את התוצאות של שאילתות הניפוי באגים.
ניהול סריקות של איכות הנתונים בטבלה ספציפית
במאמר הזה מוסבר איך לנהל סריקות של איכות הנתונים בפרויקט באמצעות הדף Metadata curation > Data profiling & quality (ניהול מטא-נתונים > פרופיל ואיכות נתונים) ב-Google Cloud console של BigQuery.
אפשר גם ליצור ולנהל סריקות של איכות הנתונים כשעובדים עם טבלה ספציפית. במסוף Google Cloud , בדף BigQuery של הטבלה, משתמשים בכרטיסייה Data quality (איכות הנתונים). מבצעים את הפעולות הבאות:
במסוף Google Cloud , עוברים לדף BigQuery.
בחלונית Explorer (בצד ימין), לוחצים על Datasets ואז על מערך הנתונים. לוחצים על סקירה כללית > טבלאות, ואז בוחרים את הטבלה שרוצים לראות את התוצאות של סריקת איכות הנתונים שלה.
לוחצים על הכרטיסייה איכות הנתונים.
בהתאם לשאלה אם הטבלה כוללת סריקה של איכות הנתונים שהתוצאות שלה מתפרסמות כמטא-נתונים של Dataplex Universal Catalog, אפשר לעבוד עם הסריקות של איכות הנתונים של הטבלה בדרכים הבאות:
תוצאות הסריקה של איכות הנתונים מתפרסמות: התוצאות האחרונות של הסריקה מוצגות בדף.
כדי לנהל את הסריקות של איכות הנתונים בטבלה הזו, לוחצים על סריקה של איכות הנתונים ובוחרים באחת מהאפשרויות הבאות:
יצירת סריקה חדשה: יצירת סריקה חדשה של איכות הנתונים. מידע נוסף זמין בקטע יצירת סריקה של איכות הנתונים במסמך הזה. כשיוצרים סריקה מדף הפרטים של טבלה, הטבלה נבחרת מראש.
הפעלה: הפעלת הסריקה.
עריכת הגדרות הסריקה: עריכת ההגדרות, כולל השם המוצג, המסננים והתזמון.
כדי לערוך את הכללים של איכות הנתונים, בכרטיסייה איכות הנתונים לוחצים על הכרטיסייה כללים. לוחצים על שינוי כללים. מעדכנים את הכללים ולוחצים על שמירה.
ניהול הרשאות הסריקה: קובעים למי תהיה גישה לתוצאות הסריקה. מידע נוסף זמין בקטע הענקת גישה לתוצאות של סריקת איכות הנתונים במסמך הזה.
הצגת תוצאות היסטוריות: הצגת מידע מפורט על משימות קודמות של סריקת איכות הנתונים. מידע נוסף זמין בקטעים הצגת תוצאות הסריקה של איכות הנתונים והצגת תוצאות סריקה היסטוריות במסמך הזה.
הצגת כל הסריקות: הצגת רשימה של סריקות איכות הנתונים שרלוונטיות לטבלה הזו.
תוצאות הסריקה של איכות הנתונים לא מתפרסמות: בוחרים מבין האפשרויות הבאות:
יצירת סריקה של איכות הנתונים: יצירת סריקה חדשה של איכות הנתונים. מידע נוסף זמין בקטע יצירת סריקה של איכות הנתונים במסמך הזה. כשיוצרים סריקה מדף הפרטים של טבלה, הטבלה נבחרת מראש.
הצגת סריקות קיימות: הצגת רשימה של סריקות איכות נתונים שחלות על הטבלה הזו.
צפייה בסריקות של איכות הנתונים בטבלה
כדי לראות את הסריקות של איכות הנתונים שחלות על טבלה ספציפית, מבצעים את הפעולות הבאות:
במסוף Google Cloud , בדף BigQuery Metadata curation, עוברים לכרטיסייה Data profiling & quality.
מסננים את הרשימה לפי שם הטבלה וסוג הסריקה.
עדכון סריקה של איכות הנתונים
אפשר לערוך הגדרות שונות של סריקה קיימת של איכות הנתונים, כמו שם התצוגה, המסננים, לוח הזמנים וכללי איכות הנתונים.
המסוף
במסוף Google Cloud , בדף BigQuery Metadata curation (ניהול מטא-נתונים), עוברים לכרטיסייה Data profiling & quality (פרופיל נתונים ואיכות).
לוחצים על השם של סריקת איכות הנתונים.
כדי לערוך את ההגדרות, כולל השם המוצג, המסננים והתזמון, לוחצים על עריכה. עורכים את הערכים ולוחצים על שמירה.
כדי לערוך את הכללים של איכות הנתונים, בדף הפרטים של הסריקה, לוחצים על הכרטיסייה כללים נוכחיים. לוחצים על שינוי כללים. מעדכנים את הכללים ולוחצים על שמירה.
gcloud
כדי לעדכן את התיאור של סריקת איכות נתונים, משתמשים בפקודה gcloud dataplex datascans update data-quality:
gcloud dataplex datascans update data-quality DATASCAN \ --location=LOCATION \ --description=DESCRIPTION
מחליפים את מה שכתוב בשדות הבאים:
-
DATASCAN: השם של הסריקה לאיכות הנתונים שרוצים לעדכן. -
LOCATION: האזור שבו נוצרה סריקת איכות הנתונים. Google Cloud -
DESCRIPTION: התיאור החדש של הסריקה לאיכות הנתונים.
C#
C#
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Go
Go
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי לערוך סריקה של איכות הנתונים, משתמשים ב-method dataScans.patch.
מחיקת סריקה של איכות הנתונים
המסוף
המסוף
במסוף Google Cloud , בדף BigQuery Metadata curation (ניהול מטא-נתונים), עוברים לכרטיסייה Data profiling & quality (פרופיל נתונים ואיכות).
לוחצים על הסריקה שרוצים למחוק.
לוחצים על מחיקה ומאשרים כשמופיעה בקשה.
gcloud
gcloud
כדי למחוק סריקה של איכות הנתונים, משתמשים בפקודה gcloud dataplex datascans delete:
gcloud dataplex datascans delete DATASCAN \ --location=LOCATION \ --async
מחליפים את המשתנים הבאים:
-
DATASCAN: השם של הסריקה של איכות הנתונים שרוצים למחוק. -
LOCATION: האזור שבו נוצרה סריקת איכות הנתונים. Google Cloud
C#
C#
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Go
Go
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
REST
כדי למחוק סריקה של איכות הנתונים, משתמשים בשיטה dataScans.delete.