במאמר הזה מוסבר איך להשתמש בסריקות של איכות הנתונים ב-Knowledge Catalog (לשעבר Dataplex Universal Catalog) כדי למדוד, לעקוב ולנהל את איכות הנתונים. סריקות של איכות הנתונים עוזרות לאמת את הנתונים באופן אוטומטי כדי לוודא שהם מלאים, תקפים ועקביים.
באמצעות סריקות של איכות הנתונים, אתם יכולים להגדיר כללים לבדיקה של ערכים חסרים, לוודא שהערכים תואמים לביטוי רגולרי או שייכים לקבוצה, לוודא שהערכים ייחודיים או להשתמש ב-SQL מותאם אישית כדי לבצע אימותים מורכבים יותר, כמו זיהוי אנומליות. במאמר הזה מוסבר איך ליצור ולנהל סריקות של איכות הנתונים.
מידע נוסף על סריקות של איכות הנתונים מידע נוסף על שימוש חוזר בכללי איכות נתונים בסריקות מרובות
לפני שמתחילים
-
מפעילים את Dataplex API.
תפקידים שנדרשים להפעלת ממשקי API
כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (
roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאהserviceusage.services.enable. איך מקצים תפקידים - אופציונלי: אם רוצים ש-Knowledge Catalog ייצור המלצות לכללים של איכות נתונים על סמך התוצאות של סריקת פרופיל נתונים, יוצרים ומריצים את סריקת פרופיל הנתונים.
תפקידים והרשאות נדרשים
בקטע הזה מתוארים התפקידים וההרשאות של IAM שנדרשים כדי להשתמש בסריקות של איכות הנתונים ב-Knowledge Catalog.
תפקידים והרשאות של משתמשים
כדי לקבל את ההרשאות שדרושות להרצה ולניהול של סריקות איכות נתונים, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים:
-
מריצים סריקה של איכות הנתונים בטבלה ב-BigQuery:
- BigQuery Job User (
roles/bigquery.jobUser) בפרויקט כדי להריץ משימות סריקה - BigQuery Data Viewer (צפייה בנתוני BigQuery) (
roles/bigquery.dataViewer) בטבלת BigQuery שרוצים לסרוק
- BigQuery Job User (
-
פרסום תוצאות של סריקת איכות נתונים ב-Knowledge Catalog:
- BigQuery Data Editor (
roles/bigquery.dataEditor) בטבלה שנסרקה - Dataplex Catalog Editor (
roles/dataplex.catalogEditor) on the@bigqueryentry group in the same location as the table
- BigQuery Data Editor (
-
ביצוע משימות ספציפיות במשאבים של
DataScan:- Dataplex DataScan Administrator (
roles/dataplex.dataScanAdmin) on the project for full access - Dataplex DataScan Creator (
roles/dataplex.dataScanCreator) בפרויקט כדי ליצור סריקות - Dataplex DataScan Editor (
roles/dataplex.dataScanEditor) בפרויקט לגישת כתיבה - Dataplex DataScan Viewer (
roles/dataplex.dataScanViewer) בפרויקט כדי לקרוא מטא-נתונים של סריקה - Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) בפרויקט כדי לקרוא נתוני סריקה, כולל כללים ותוצאות
- Dataplex DataScan Administrator (
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות להרצה ולניהול של סריקות איכות נתונים. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי להריץ סריקות של איכות הנתונים ולנהל אותן, נדרשות ההרשאות הבאות:
-
מריצים סריקה של איכות הנתונים בטבלת BigQuery:
-
bigquery.jobs.createבפרויקט כדי להריץ משימות סריקה -
bigquery.tables.getבטבלה ב-BigQuery שרוצים לסרוק -
bigquery.tables.getDataבטבלה ב-BigQuery שרוצים לסרוק
-
-
פרסום תוצאות של סריקת איכות נתונים ב-Knowledge Catalog:
-
bigquery.tables.updateבטבלה שנסרקה -
dataplex.entryGroups.useDataQualityScorecardAspectבתוך קבוצת הרשומות@bigqueryבאותו מיקום כמו הטבלה
-
-
יצירת
DataScan:dataplex.datascans.createבפרויקט -
מחיקת
DataScan:dataplex.datascans.deleteבפרויקט -
כדי להציג את המטא-נתונים של
DataScan:dataplex.datascans.getבפרויקט -
צפייה בפרטים של
DataScan, כולל כללים ותוצאות:dataplex.datascans.getDataבפרויקט -
רשימת
DataScan:dataplex.datascans.listבפרויקט -
להריץ
DataScan:dataplex.datascans.runבפרויקט -
עדכון של
DataScan:dataplex.datascans.updateבפרויקט -
קבלת מדיניות IAM או הגדרת מדיניות IAM ב-
DataScan:-
dataplex.datascans.getIamPolicyבפרויקט -
dataplex.datascans.setIamPolicyבפרויקט
-
יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
אם אתם צריכים לגשת לעמודות שמוגנות על ידי מדיניות גישה ברמת העמודה ב-BigQuery, אתם צריכים גם הרשאות לעמודות האלה.
תפקידים והרשאות של חשבון שירות ב-Knowledge Catalog
אם לא יצרתם סריקות של איכות נתונים או סריקת פרופיל נתונים, או אם אין לכם אגם של Knowledge Catalog בפרויקט הזה, אתם צריכים ליצור מזהה שירות על ידי הרצת הפקודה: gcloud beta services identity create --service=dataplex.googleapis.com.
הפקודה הזו מחזירה מזהה שירות של Knowledge Catalog אם הוא קיים.
כדי לוודא שלחשבון השירות של Knowledge Catalog בפרויקט שמכיל את הסריקה של איכות הנתונים יש את ההרשאות הנדרשות לקריאת נתונים ממקורות שונים ולייצוא תוצאות, צריך לבקש מהאדמין להקצות את תפקידי ה-IAM הבאים לחשבון השירות של Knowledge Catalog בפרויקט שמכיל את הסריקה של איכות הנתונים:
-
קריאת נתונים מטבלאות BigQuery:
BigQuery Data Viewer (
roles/bigquery.dataViewer) בטבלאות BigQuery שצריך לסרוק ובכל טבלה אחרת שמפנים אליה בכללים -
קריאת נתוני טבלה בקטלוג REST של Iceberg:
BigLake Viewer (
roles/biglake.viewer) בטבלאות של קטלוג REST של Iceberg שצריך לסרוק ובכל טבלה אחרת שמפנים אליה בכללים -
ייצוא תוצאות הסריקה לטבלה ב-BigQuery:
BigQuery Data Editor (
roles/bigquery.dataEditor) במערך הנתונים ובטבלה של התוצאות -
סריקת נתונים ב-BigQuery שמסודרים באגם של Knowledge Catalog:
- Dataplex Metadata Reader (
roles/dataplex.metadataReader) on Dataplex resources - בעל הרשאת צפייה ב-Dataplex (
roles/dataplex.viewer) במשאבי Dataplex
- Dataplex Metadata Reader (
-
סריקה של טבלה חיצונית ב-BigQuery מ-Cloud Storage:
Storage Object Viewer (
roles/storage.objectViewer) בקטגוריה של Cloud Storage
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות לקריאת נתונים ממקורות שונים ולייצוא תוצאות. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי לקרוא נתונים ממקורות שונים ולייצא תוצאות, נדרשות ההרשאות הבאות:
-
קריאת נתונים מטבלה ב-BigQuery:
-
bigquery.tables.getבטבלאות BigQuery -
bigquery.tables.getDataבטבלאות BigQuery
-
-
ייצוא תוצאות הסריקה לטבלה ב-BigQuery:
-
bigquery.datasets.getבטבלה ובמערך הנתונים של התוצאות -
bigquery.tables.createבטבלה ובמערך הנתונים של התוצאות -
bigquery.tables.getבטבלה ובמערך הנתונים של התוצאות -
bigquery.tables.getDataבטבלה ובמערך הנתונים של התוצאות -
bigquery.tables.updateבטבלה ובמערך הנתונים של התוצאות -
bigquery.tables.updateDataבטבלה ובמערך הנתונים של התוצאות
-
-
סריקת נתונים ב-BigQuery שמסודרים באגם Knowledge Catalog:
-
dataplex.lakes.listבמשאבי Dataplex -
dataplex.lakes.getבמשאבי Dataplex -
dataplex.zones.listבמשאבי Dataplex -
dataplex.zones.getבמשאבי Dataplex -
dataplex.entities.listבמשאבי Dataplex -
dataplex.entities.getבמשאבי Dataplex -
dataplex.operations.getבמשאבי Dataplex
-
-
סריקה של טבלה חיצונית ב-BigQuery מ-Cloud Storage:
-
storage.buckets.getבקטגוריה של Cloud Storage -
storage.objects.getבקטגוריה של Cloud Storage
-
יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות של Knowledge Catalog בפרויקט שמכיל את הסריקה של איכות הנתונים את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
אם אתם צריכים לגשת לעמודות שמוגנות על ידי מדיניות גישה ברמת העמודה ב-BigQuery, אתם צריכים להקצות הרשאות לחשבון השירות של Knowledge Catalog לעמודות האלה.
אם בטבלה מופעלות מדיניות גישה ברמת השורה ב-BigQuery, אפשר לסרוק רק את השורות שחשבון השירות של Knowledge Catalog יכול לראות. הערה: הרשאות הגישה של משתמשים ספציפיים לא נבדקות במדיניות ברמת השורה.
הגדרת כללים לאיכות הנתונים
אפשר להגדיר כללים לאיכות הנתונים באמצעות:
אם אתם משתמשים ב-CLI של gcloud, אתם יכולים להגדיר את הכללים האלה בקובץ JSON או YAML.
בדוגמאות שבקטעים הבאים מוסבר איך להגדיר מגוון כללים של איכות נתונים. הכללים מאמתים טבלת דוגמה שמכילה נתונים על עסקאות של לקוחות. נניח שהסכימה של הטבלה היא:
| שם העמודה | סוג העמודה | תיאור העמודה |
|---|---|---|
| transaction_timestamp | חותמת הזמן | חותמת הזמן של העסקה. הטבלה מחולקת למחיצות לפי השדה הזה. |
| customer_id | String | מספר לקוח בפורמט של 8 אותיות ואחריהן 16 ספרות. |
| transaction_id | String | מזהה העסקה צריך להיות ייחודי בכל הטבלה. |
| currency_id | String | אחד מהמטבעות הנתמכים.סוג המטבע חייב להיות אחד מהמטבעות הזמינים בטבלת המאפיינים dim_currency.
|
| amount | מספר ממשי (float) | סכום העסקה. |
| discount_pct | מספר ממשי (float) | אחוז ההנחה. הערך צריך להיות בין 0 ל-100. |
הגדרת כללים לאיכות הנתונים באמצעות סוגי כללים מובנים
כללי הדוגמה הבאים מבוססים על סוגי כללים מובנים. אפשר ליצור כללים על סמך סוגי כללים מובנים באמצעות Google Cloud המסוף או ה-API. יכול להיות ש-Knowledge Catalog ימליץ על חלק מהכללים האלה.
| שם עמודה | סוג הכלל | המימד המוצע | פרמטרים של כללים |
|---|---|---|---|
transaction_id |
בדיקת ייחודיות | ייחודיות | סף: Not Applicable |
amount |
בדיקת ערך Null | השלמות | סף: 100% |
customer_id |
בדיקת ביטוי רגולרי (regex) | תוקף | ביטוי רגולרי: ^[0-9]{8}[a-zA-Z]{16}$ ערך סף: 100%
|
currency_id |
בדיקת ערך מוגדר | תוקף | קבוצה של: USD,JPY,INR,GBP,CAN סף: 100%
|
הגדרת כללים לאיכות הנתונים באמצעות כללי SQL בהתאמה אישית
כדי ליצור כללי SQL בהתאמה אישית, משתמשים במסגרת הבאה:
כשיוצרים כלל שמעריך שורה אחת בכל פעם, צריך ליצור ביטוי שמפיק את מספר השורות שהוערכו בהצלחה כש-Knowledge Catalog מעריך את השאילתה
SELECT COUNTIF(CUSTOM_SQL_EXPRESSION) FROM TABLE. ב-Knowledge Catalog נבדק אם מספר השורות שעברו בהצלחה עומד בסף.כשיוצרים כלל שבודק את השורות או משתמש בתנאי של טבלה, צריך ליצור ביטוי שמחזיר הצלחה או כישלון כש-Knowledge Catalog בודק את השאילתה
SELECT IF(CUSTOM_SQL_EXPRESSION) FROM TABLE.כשיוצרים כלל שמעריך את המצב הלא תקין של מערך נתונים, צריך לספק הצהרה שמחזירה שורות לא תקינות. אם מוחזרות שורות, הכלל נכשל. משמיטים את הנקודה-פסיק בסוף הצהרת ה-SQL.
אפשר להפנות לטבלה של מקור נתונים ולכל מסנני התנאים המוקדמים שלה באמצעות פרמטר ההפניה לנתונים
${data()}בכלל, במקום לציין במפורש את טבלת המקור והמסננים שלה. דוגמאות למסנני תנאי מוקדם כוללות מסנני שורות, אחוזים של דגימה ומסננים מצטברים. הפרמטר${data()}הוא תלוי אותיות רישיות.
הכללים הבאים מבוססים על כללי SQL בהתאמה אישית.
| סוג הכלל | תיאור הכלל | ביטוי SQL |
|---|---|---|
| תנאי השורה | בודקת אם הערך של discount_pct
הוא בין 0 ל-100.
|
0 <discount_pct AND discount_pct < 100
|
| תנאי השורה | בדיקה של הפניה כדי לוודא ש-currency_id היא אחת מהמטבעות הנתמכים.
|
currency_id in (select id from my_project_id.dim_dataset.dim_currency)
|
| מצב הטבלה | ביטוי SQL מצטבר שבודק אם הערך הממוצע של discount_pct הוא בין 30% ל-50%.
|
30<avg(discount) AND avg(discount) <50
|
| תנאי השורה | הפונקציה בודקת אם תאריך מסוים לא חל בעתיד. | TIMESTAMP(transaction_timestamp) < CURRENT_TIMESTAMP()
|
| מצב הטבלה |
פונקציה בהגדרת המשתמש (UDF) ב-BigQuery
כדי לבדוק שהסכום הממוצע של העסקאות קטן מערך מוגדר מראש
לכל מדינה. כדי ליצור את ה-UDF (ב-JavaScript), מריצים את הפקודה הבאה:
CREATE OR REPLACE FUNCTION
myProject.myDataset.average_by_country (
country STRING, average FLOAT64)
RETURNS BOOL LANGUAGE js AS R"""
if (country = "CAN" && average < 5000){
return 1
} else if (country = "IND" && average < 1000){
return 1
} else { return 0 }
""";
|
דוגמה לכלל לבדיקת סכום העסקה הממוצע עבור country=CAN.
myProject.myDataset.average_by_country(
"CAN",
(SELECT avg(amount) FROM
myProject.myDataset.transactions_table
WHERE currency_id = 'CAN'
))
|
| מצב הטבלה | סעיף BigQuery ML
predict לזיהוי חריגות ב-discount_pct. המערכת בודקת אם צריך להחיל הנחה על סמך customer, currency ו-transaction. הכלל בודק אם התחזית תואמת לערך בפועל ב-99% מהמקרים לפחות. הנחה: מודל למידת המכונה נוצר לפני השימוש בכלל. יוצרים את מודל ה-ML באמצעות הפקודה הבאה:
CREATE MODEL
model-project-id.dataset-id.model-name
OPTIONS(model_type='logistic_reg') AS
SELECT
IF(discount_pct IS NULL, 0, 1) AS label,
IFNULL(customer_id, "") AS customer,
IFNULL(currency_id, "") AS currency,
IFNULL(amount, 0.0) AS amount
FROM
`data-project-id.dataset-id.table-names`
WHERE transaction_timestamp < '2022-01-01';
|
הכלל הבא בודק אם דיוק התחזית גדול מ-99%.
SELECT
accuracy > 0.99
FROM
ML.EVALUATE
(MODEL model-project-id.dataset-id.model-name,
(
SELECT
customer_id,
currency_id,
amount,
discount_pct
FROM
data-project-id.dataset-id.table-names
WHERE transaction_timestamp > '2022-01-01';
)
)
|
| תנאי השורה | פונקציית חיזוי של BigQuery ML לזיהוי אנומליות ב-discount_pct. הפונקציה
בודקת אם צריך להחיל הנחה על סמך customer,
currency ו-transaction.
הכלל מזהה את כל המקרים שבהם התחזית לא תאמה.
הנחה: מודל ה-ML נוצר לפני השימוש בכלל. יוצרים את מודל למידת המכונה באמצעות הפקודה הבאה:
CREATE MODEL
model-project-id.dataset-id.model-name
OPTIONS(model_type='logistic_reg') AS
SELECT
IF(discount_pct IS NULL, 0, 1) AS label,
IFNULL(customer_id, "") AS customer,
IFNULL(currency_id, "") AS currency,
IFNULL(amount, 0.0) AS amount
FROM
`data-project-id.dataset-id.table-names`
WHERE transaction_timestamp < '2022-01-01';
|
הכלל הבא בודק אם התחזית לגבי ההנחה תואמת לערך בפועל בכל שורה.
IF(discount_pct > 0, 1, 0)
=(SELECT predicted_label FROM
ML.PREDICT(
MODEL model-project-id.dataset-id.model-name,
(
SELECT
customer_id,
currency_id,
amount,
discount_pct
FROM
data-project-id.dataset-id.table-names AS t
WHERE t.transaction_timestamp =
transaction_timestamp
LIMIT 1
)
)
)
|
| טענת נכוֹנוּת (assertion) של SQL | הפונקציה בודקת אם הערך של discount_pct גדול מ-30% להיום, על ידי בדיקה אם יש שורות עם אחוז הנחה שקטן מ-30 או שווה ל-30. |
SELECT * FROM my_project_id.dim_dataset.dim_currency WHERE discount_pct <= 30 AND transaction_timestamp >= current_date() |
| טענת SQL (עם פרמטר הפניה לנתונים) | הפונקציה בודקת אם הערך של מסנן התאריכים פרמטר ההפניה לנתונים |
SELECT * FROM ${data()} WHERE discount_pct > 30 |
הגדרת כללים לאיכות הנתונים באמצעות ה-CLI של gcloud
בקובץ ה-YAML לדוגמה הבא נעשה שימוש בחלק מהכללים שמופיעים בכללים לדוגמה באמצעות סוגים מובנים ובכללי SQL מותאמים אישית לדוגמה. קובץ ה-YAML הזה מכיל גם מפרטים אחרים לסריקת איכות הנתונים, כמו מסננים ואחוז הדגימה. כשמשתמשים ב-CLI של gcloud כדי ליצור או לעדכן סריקה של איכות הנתונים, אפשר להשתמש בקובץ YAML כמו זה שמוצג כאן כקלט לארגומנט --data-quality-spec-file.
rules:
- uniquenessExpectation: {}
column: transaction_id
dimension: UNIQUENESS
- nonNullExpectation: {}
column: amount
dimension: COMPLETENESS
threshold: 1
- regexExpectation:
regex: '^[0-9]{8}[a-zA-Z]{16}$'
column : customer_id
ignoreNull : true
dimension : VALIDITY
threshold : 1
- setExpectation :
values :
- 'USD'
- 'JPY'
- 'INR'
- 'GBP'
- 'CAN'
column : currency_id
ignoreNull : true
dimension : VALIDITY
threshold : 1
- rangeExpectation:
minValue : '0'
maxValue : '100'
column : discount_pct
ignoreNull : true
dimension : VALIDITY
threshold : 1
- rowConditionExpectation:
sqlExpression : 0 < `discount_pct` AND `discount_pct` < 100
column: discount_pct
dimension: VALIDITY
threshold: 1
- rowConditionExpectation:
sqlExpression : currency_id in (select id from `my_project_id.dim_dataset.dim_currency`)
column: currency_id
dimension: VALIDITY
threshold: 1
- tableConditionExpectation:
sqlExpression : 30 < avg(discount_pct) AND avg(discount_pct) < 50
dimension: VALIDITY
- rowConditionExpectation:
sqlExpression : TIMESTAMP(transaction_timestamp) < CURRENT_TIMESTAMP()
column: transaction_timestamp
dimension: VALIDITY
threshold: 1
- sqlAssertion:
sqlStatement : SELECT * FROM `my_project_id.dim_dataset.dim_currency` WHERE discount_pct > 100
dimension: VALIDITY
debugQueries:
- sqlStatement: SELECT MAX(discount_pct) FROM `my_project_id.dim_dataset.dim_currency`
samplingPercent: 50
rowFilter: discount_pct > 100
postScanActions:
bigqueryExport:
resultsTable: projects/my_project_id/datasets/dim_dataset/tables/dim_currency
notificationReport:
recipients:
emails:
- '222larabrown@gmail.com'
- 'cloudysanfrancisco@gmail.com'
scoreThresholdTrigger:
scoreThreshold: 50
jobFailureTrigger: {}
jobEndTrigger: {}
catalogPublishingEnabled: true
הגדרת זהות ההרצה
כברירת מחדל, סריקות של איכות הנתונים מופעלות באמצעות חשבון השירות של Knowledge Catalog. אפשר לשנות את ברירת המחדל כדי להשתמש בחשבון שירות בהתאמה אישית או בפרטי כניסה משלכם של משתמשי קצה (EUC).
שימוש בזהות ביצוע מותאמת אישית משנה את אופן החיוב על הסריקה. כשמציינים זהות ביצוע מותאמת אישית, עלויות האחסון והחישוב שמשויכות לסריקה מחויבות ישירות בפרויקט BigQuery, בלי לעבור דרך המק"טים הרגילים של Knowledge Catalog Premium.
הרשאות שנדרשות לזהויות מותאמות אישית להרצת תהליכים
כדי להגדיר חשבון שירות בהתאמה אישית או להשתמש בפרטי כניסה של משתמש קצה, אתם צריכים את הרשאות ה-IAM הנוספות הבאות:
- כדי להשתמש בחשבון שירות בהתאמה אישית, צריך:
- ההרשאה
iam.serviceAccounts.actAsשניתנה לפרויקט שמכיל את חשבון השירות (לדוגמה,roles/iam.serviceAccountUser). - לסוכן השירות של הפרויקט (
service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) צריכה להיות ההרשאהiam.serviceAccounts.getAccessTokenבחשבון השירות המותאם אישית (לדוגמה, אם מוקצה לו התפקידroles/iam.serviceAccountTokenCreator). - לחשבון השירות המותאם אישית צריך להיות
bigquery.tables.getDataבטבלה כדי לסרוק,bigquery.jobs.insertבפרויקט הסריקה וbigquery.dataEditorבמערך הנתונים לייצוא (אם משתמשים בייצוא).
- ההרשאה
- כדי להשתמש בפרטי כניסה של משתמשי קצה, צריך:
bigquery.tables.getDataעל השולחן כדי לסרוק.-
bigquery.jobs.insertבפרויקט הסריקה. -
bigquery.dataEditorבמערך הנתונים לייצוא (אם משתמשים בייצוא).
כדי להגדיר את זהות ההרצה, בוחרים באחת מהאפשרויות הבאות:
המסוף
כדי להגדיר את זהות ההרצה במסוף Google Cloud , בוחרים את הזהות כשיוצרים את הסריקה של איכות הנתונים.
בקטע Execution Identity, בוחרים באחת מהאפשרויות הבאות:
- Dataplex Service Agent: התנהגות ברירת המחדל.
- Service Account (חשבון שירות): מזינים את כתובת האימייל של חשבון השירות שרוצים להשתמש בו.
- פרטי כניסה של משתמש: משתמשים בפרטי הכניסה שלכם כדי להריץ את הסריקה.
REST
כדי להשתמש בחשבון שירות מותאם אישית, מוסיפים את האובייקט executionIdentity להגדרת המשאב DataScan במהלך הבקשה create:
"executionIdentity": { "serviceAccount": { "email": "YOUR_SERVICE_ACCOUNT_EMAIL" } }
מחליפים את מה שכתוב בשדות הבאים:
YOUR_SERVICE_ACCOUNT_EMAIL: כתובת האימייל של חשבון השירות שבו רוצים להשתמש.
כדי להשתמש בפרטי כניסה של משתמשי קצה, צריך לציין את האובייקט userCredential במקום זאת:
"executionIdentity": { "userCredential": {} }
יצירת סריקה של איכות הנתונים
המסוף
במסוף Google Cloud , עוברים לדף Knowledge Catalog (קטלוג הידע) Data profiling & quality (פרופיל ואיכות נתונים).
לוחצים על יצירת סריקה של איכות הנתונים.
בחלון Define scan (הגדרת סריקה), ממלאים את השדות הבאים:
אופציונלי: מזינים שם לתצוגה.
מזינים מזהה. מוסכמות למתן שמות למשאבים
אופציונלי: מזינים תיאור.
בשדה טבלה, לוחצים על עיון. בוחרים את הטבלה שרוצים לסרוק ולוחצים על בחירה. יש תמיכה רק בטבלאות של קטלוג BigQuery סטנדרטי ושל קטלוג Iceberg REST.
עבור טבלאות במערכי נתונים במספר אזורים, בוחרים אזור שבו ייסרקו הנתונים.
כדי לעיין בטבלאות שמאורגנות באגמי Knowledge Catalog, לוחצים על עיון באגמי Knowledge Catalog.
בשדה היקף, בוחרים באפשרות מצטבר או כל הנתונים.
- אם בוחרים באפשרות מצטבר: בשדה עמודת חותמת הזמן, בוחרים עמודה מהסוג
DATEאוTIMESTAMPמטבלת BigQuery, שערכיה גדלים ככל שמוסיפים רשומות חדשות, ושניתן להשתמש בה כדי לזהות רשומות חדשות. יכולה להיות עמודה שמחלקת את הטבלה למחיצות.
- אם בוחרים באפשרות מצטבר: בשדה עמודת חותמת הזמן, בוחרים עמודה מהסוג
אופציונלי: כדי לסנן את הנתונים, מסמנים את התיבה סינון שורות. צריך לספק מסנן שורות שמורכב מביטוי SQL תקין שאפשר להשתמש בו כחלק מסעיף
WHEREבתחביר GoogleSQL. לדוגמה,col1 >= 0. המסנן יכול להיות שילוב של כמה תנאים של עמודות. לדוגמה,col1 >= 0 AND col2 < 10.כדי לדגום את הנתונים, בוחרים אחוז דגימה ברשימה גודל הדגימה. בוחרים ערך באחוזים בטווח שבין 0.0% ל-100.0%, עם עד 3 ספרות אחרי הנקודה העשרונית. למערכי נתונים גדולים יותר, מומלץ לבחור אחוז דגימה נמוך יותר. לדוגמה, אם הטבלה היא בגודל 1 PB, והזנתם ערך בין 0.1% ל-1.0%, הסריקה של איכות הנתונים תדגום בין 1 ל-10 TB של נתונים. בסריקות מצטברות של נתונים, סריקת איכות הנתונים חלה על הדגימה של התוספת האחרונה.
אופציונלי: כדי לפרסם את תוצאות הסריקה של איכות הנתונים כמטא-נתונים של Knowledge Catalog, מסמנים את תיבת הסימון פרסום התוצאות ב-Knowledge Catalog.
אפשר לראות את התוצאות האחרונות של הסריקה בכרטיסייה איכות הנתונים בדפים של BigQuery ושל Knowledge Catalog עבור טבלת המקור. כדי לאפשר למשתמשים לגשת לתוצאות הסריקה שפורסמו, אפשר לעיין בקטע הענקת גישה לתוצאות סריקה של איכות הנתונים במסמך הזה.
בקטע סוג אישורי הגישה, אפשר לעיין במאמר הגדרת זהות להרצת תהליכים.
כדי ליצור סריקה של איכות הנתונים באמצעות כללים, בוחרים באפשרות סוג הכלל > יצירה באמצעות כלל מבוסס-רשומה.
בקטע תזמון, בוחרים באחת מהאפשרויות הבאות:
חזרה: הפעלת סריקת איכות הנתונים לפי לוח זמנים: שעתי, יומי, שבועי, חודשי או בהתאמה אישית. מציינים את תדירות הסריקה ואת השעה שבה היא תתבצע. אם בוחרים באפשרות 'מותאם אישית', צריך להשתמש בפורמט cron כדי לציין את לוח הזמנים.
על פי דרישה: הרצת הסריקה של איכות הנתונים על פי דרישה.
הפעלה חד-פעמית: הפעל את סריקת איכות הנתונים פעם אחת עכשיו, והסר את הסריקה אחרי פרק הזמן שמוגדר למחיקה אוטומטית. התכונה הזו נמצאת בגרסת טרום-השקה.
- הגדרת מחיקה אוטומטית של תוצאות אחרי סריקה: זמן המחיקה האוטומטית הוא פרק הזמן שחולף בין מועד ביצוע הסריקה לבין מועד המחיקה שלה. סריקה של איכות הנתונים ללא ציון זמן למחיקה אוטומטית נמחקת אוטומטית 24 שעות אחרי ההפעלה שלה. פרק הזמן למחיקה אוטומטית יכול להיות בין 0 שניות (מחיקה מיידית) ל-365 ימים.
לוחצים על Continue.
בחלון כללים לאיכות הנתונים, מגדירים את הכללים שרוצים להגדיר לסריקה הזו של איכות הנתונים.
לוחצים על הוספת כללים ובוחרים באחת מהאפשרויות הבאות.
המלצות מבוססות פרופיל: יצירת כללים מההמלצות על סמך סריקה קיימת של פרופיל הנתונים.
בחירת עמודות: בוחרים את העמודות שרוצים לקבל עבורן המלצות לכללים.
Choose scan project (בחירת פרויקט לסריקה): אם סריקת פרופיל הנתונים נמצאת בפרויקט אחר מהפרויקט שבו אתם יוצרים את סריקת איכות הנתונים, צריך לבחור את הפרויקט שממנו יתבצעו סריקות הפרופיל.
בחירת תוצאות פרופיל: בוחרים תוצאת פרופיל אחת או יותר ולוחצים על אישור. כך תתקבל רשימה של כללים מוצעים שאפשר להשתמש בהם כנקודת התחלה.
מסמנים את תיבת הסימון של הכללים שרוצים להוסיף ולוחצים על בחירה. אחרי שבוחרים את הכללים, הם מתווספים לרשימת הכללים הנוכחית. לאחר מכן תוכלו לערוך את הכללים.
סוגי כללים מובְנים: יצירת כללים מכללים מוגדרים מראש. רשימת הכללים המוגדרים מראש
בחירת עמודות: בוחרים את העמודות שרוצים לבחור עבורן כללים.
בחירת סוגי כללים: בוחרים את סוגי הכללים שרוצים לבחור מתוכם ולוחצים על אישור. סוגי הכללים שיופיעו תלויים בעמודות שבחרתם.
מסמנים את תיבת הסימון של הכללים שרוצים להוסיף ולוחצים על בחירה. אחרי הבחירה, הכללים יתווספו לרשימת הכללים הנוכחית. לאחר מכן תוכלו לערוך את הכללים.
כלל לבדיקת שורות ב-SQL: יוצרים כלל SQL בהתאמה אישית להחלה על כל שורה.
בקטע מאפיין, בוחרים מאפיין אחד.
בקטע סף מעבר, בוחרים את אחוז הרשומות שצריכות לעבור את הבדיקה.
בעמודה שם העמודה, בוחרים עמודה.
בשדה Provide a SQL expression (הזנת ביטוי SQL), מזינים ביטוי SQL שהערך המחושב שלו הוא בוליאני
true(עבר) אוfalse(נכשל). מידע נוסף זמין במאמר בנושא סוגים נתמכים של כללי SQL בהתאמה אישית ובדוגמאות במאמר הגדרת כללים לאיכות הנתונים.לוחצים על הוספה.
כלל בדיקה של צבירת SQL: יצירת כלל מותאם אישית של תנאי טבלת SQL.
בקטע מאפיין, בוחרים מאפיין אחד.
בעמודה שם העמודה, בוחרים עמודה.
בשדה Provide a SQL expression (הזנת ביטוי SQL), מזינים ביטוי SQL שהערך המחושב שלו הוא בוליאני
true(עבר) אוfalse(נכשל). מידע נוסף זמין במאמר בנושא סוגים נתמכים של כללי SQL בהתאמה אישית ובדוגמאות במאמר הגדרת כללים לאיכות הנתונים.לוחצים על הוספה.
כלל הצהרת SQL: יצירת כלל הצהרת SQL מותאם אישית כדי לבדוק אם הנתונים נמצאים במצב לא תקין.
בקטע מאפיין, בוחרים מאפיין אחד.
אופציונלי: בשם העמודה, בוחרים עמודה.
בשדה Provide a SQL statement (הזנת הצהרת SQL), מזינים הצהרת SQL שמחזירה שורות שתואמות למצב לא תקין. אם מוחזרות שורות, הכלל נכשל. משמיטים את הנקודה-פסיק בסוף של הצהרת ה-SQL. מידע נוסף זמין במאמרים בנושא סוגים נתמכים של כללי SQL בהתאמה אישית ובקטע הדוגמאות במאמר הגדרת כללים לאיכות הנתונים.
לוחצים על הוספה.
אופציונלי: לכל כלל למדידת איכות נתונים, אפשר להקצות שם כלל מותאם אישית לשימוש במעקב ובשליחת התראות, ותיאור. כדי לעשות את זה, עורכים כלל ומציינים את הפרטים הבאים:
- שם הכלל: מזינים שם מותאם אישית לכלל, באורך של עד 63 תווים. שם הכלל יכול לכלול אותיות (a-z, A-Z), ספרות (0-9) ומקפים (-). הוא חייב להתחיל באות ולהסתיים בספרה או באות.
- תיאור: מזינים תיאור של הכלל באורך של עד 1,024 תווים.
חוזרים על השלבים הקודמים כדי להוסיף עוד כללים לסריקת איכות הנתונים. בסיום, לוחצים על המשך.
אופציונלי: ייצוא תוצאות הסריקה לטבלת BigQuery רגילה. בקטע Export scan results to BigQuery table (ייצוא תוצאות הסריקה לטבלת BigQuery), מבצעים את הפעולות הבאות:
בשדה Select BigQuery dataset (בחירת מערך נתונים ב-BigQuery), לוחצים על Browse (עיון). בוחרים מערך נתונים ב-BigQuery לאחסון התוצאות של סריקת איכות הנתונים.
בשדה BigQuery table (טבלת BigQuery), מציינים את הטבלה שבה יאוחסנו תוצאות הסריקה של איכות הנתונים. אם אתם משתמשים בטבלה קיימת, ודאו שהיא תואמת לסכימת טבלת הייצוא. אם הטבלה שצוינה לא קיימת, Knowledge Catalog יוצר אותה בשבילכם.
אופציונלי: מוסיפים תוויות. תוויות הן צמדי מפתח/ערך שמאפשרים לקשר בין אובייקטים או ביניהם לבין משאבים אחרים של Google Cloud .
אופציונלי: מגדירים דוחות התראות באימייל כדי להודיע לאנשים על הסטטוס והתוצאות של משימת סריקה של איכות הנתונים. בקטע דוח התראות, לוחצים על הוספת מזהה אימייל ומזינים עד חמש כתובות אימייל. לאחר מכן בוחרים את התרחישים שעבורם רוצים לשלוח דוחות:
- ציון איכות (<=): המערכת שולחת דוח כשהעבודה מסתיימת בהצלחה עם ציון איכות נתונים נמוך מציון היעד שצוין. מזינים ציון איכות יעד בין 0 ל-100.
- כשלים במשימות: נשלח דוח כשהמשימה עצמה נכשלת, בלי קשר לתוצאות של איכות הנתונים.
- השלמת העבודה (הצלחה או כישלון): שליחת דוח כשהעבודה מסתיימת, ללא קשר לתוצאות של איכות הנתונים.
לוחצים על יצירה.
אחרי שיוצרים סריקה, אפשר להריץ אותה בכל שלב בלחיצה על הפעלה עכשיו.
gcloud
כדי ליצור סריקה של איכות הנתונים, משתמשים בפקודה gcloud dataplex datascans create data-quality.
אם נתוני המקור מאורגנים באגם של Knowledge Catalog, צריך לכלול את הדגל --data-source-entity:
gcloud dataplex datascans create data-quality DATASCAN \
--location=LOCATION \
--data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
--data-source-entity=DATA_SOURCE_ENTITY
אם נתוני המקור לא מאורגנים באגם של Knowledge Catalog, צריך לכלול את הדגל --data-source-resource:
gcloud dataplex datascans create data-quality DATASCAN \
--location=LOCATION \
--data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
--data-source-resource=DATA_SOURCE_RESOURCE
מחליפים את המשתנים הבאים:
DATASCAN: השם של הסריקה לאיכות הנתונים.-
LOCATION: האזור שבו תיצור את סריקת איכות הנתונים. Google Cloud -
DATA_QUALITY_SPEC_FILE: הנתיב לקובץ ה-JSON או ה-YAML שמכיל את המפרטים של סריקת איכות הנתונים. הקובץ יכול להיות קובץ מקומי או נתיב ב-Cloud Storage עם הקידומתgs://. משתמשים בקובץ הזה כדי לציין את כללי איכות הנתונים לסריקה. אפשר גם לציין פרטים נוספים בקובץ הזה, כמו פילטרים, אחוז הדגימה ופעולות אחרי הסריקה כמו ייצוא ל-BigQuery או שליחת דוחות של התראות באימייל. ראו תיעוד של ייצוג JSON ודוגמה לייצוג YAML. -
DATA_SOURCE_ENTITY: הישות ב-Knowledge Catalog שמכילה את הנתונים לסריקת איכות הנתונים. לדוגמה,projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity. -
DATA_SOURCE_RESOURCE: השם של המשאב שמכיל את הנתונים לסריקת איכות הנתונים. לדוגמה,//bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.
C#
C#
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי C#ההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog C# API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
המשך
Go
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Goההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Go API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Java API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
Node.js
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Node.jsההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Node.js API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Pythonההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Python API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Rubyההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Ruby API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי ליצור סריקה של איכות הנתונים, משתמשים ב-method dataScans.create.
הבקשה הבאה יוצרת סריקה חד-פעמית של איכות הנתונים:
POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?data_scan_id=DATASCAN_ID { "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID" }, "type": "DATA_QUALITY", "executionSpec": { "trigger": { "oneTime": { "ttl_after_scan_completion": "120s" } } }, "dataQualitySpec": { "rules": [ { "nonNullExpectation": {}, "column": "COLUMN_NAME", "dimension": "DIMENSION", "threshold": 1 } ], "filter": "FILTER_CONDITION" } }
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט. -
LOCATION: האזור שבו ייסרק הנתונים כדי לבדוק את איכות הנתונים. -
DATASCAN_ID: המזהה של סריקת איכות הנתונים. -
DATASET_ID: המזהה של מערך הנתונים ב-BigQuery. -
TABLE_ID: המזהה של הטבלה ב-BigQuery. -
COLUMN_NAME: שם העמודה של הכלל. -
DIMENSION: המאפיין של הכלל, למשלVALIDITY. -
FILTER_CONDITION: מחרוזת סינון AIP-160 אופציונלית להרצת כללים באופן סלקטיבי (לדוגמה,name = \"RULE_NAME\").
אם רוצים ליצור כללים לסריקת איכות הנתונים באמצעות המלצות לכללים שמבוססות על התוצאות של סריקת פרופיל הנתונים, צריך לקבל את ההמלצות באמצעות קריאה לשיטה dataScans.jobs.generateDataQualityRules בסריקת פרופיל הנתונים.
ייצוא סכמת הטבלה
כדי לייצא את תוצאות הסריקה של איכות הנתונים לטבלת BigQuery קיימת, צריך לוודא שהיא תואמת לסכימת הטבלה הבאה:
| שם עמודה | סוג הנתונים בעמודה | שם שדה משנה (אם רלוונטי) |
סוג הנתונים של שדה משנה | מצב | דוגמה |
|---|---|---|---|---|---|
| data_quality_scan | struct/record |
resource_name |
string |
יכול להיות ריק | //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan |
project_id |
string |
יכול להיות ריק | dataplex-back-end-dev-project |
||
location |
string |
יכול להיות ריק | us-central1 |
||
data_scan_id |
string |
יכול להיות ריק | test-datascan |
||
display_name |
string |
יכול להיות ריק | datascan-display-name |
||
| data_source | struct/record |
resource_name |
string |
יכול להיות ריק | מספר הפנייה של הישות://dataplex.googleapis.com/projects/dataplex-back-end-dev-project/locations/europe-west2/lakes/a0-datascan-test-lake/zones/a0-datascan-test-zone/entities/table1מספר הפנייה של הטבלה: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
|
dataplex_entity_project_id |
string |
יכול להיות ריק | dataplex-back-end-dev-project |
||
dataplex_entity_project_number |
integer |
יכול להיות ריק | 123456789 |
||
dataplex_lake_id |
string |
יכול להיות ריק | (תקף רק אם המקור הוא ישות)test-lake
|
||
dataplex_zone_id |
string |
יכול להיות ריק | (תקף רק אם המקור הוא ישות)test-zone |
||
dataplex_entity_id |
string |
יכול להיות ריק | (תקף רק אם המקור הוא ישות)test-entity |
||
table_project_id |
string |
יכול להיות ריק | test-project |
||
table_project_number |
integer |
יכול להיות ריק | 987654321 |
||
dataset_id |
string |
יכול להיות ריק | (תקף רק אם המקור הוא טבלה)test-dataset |
||
table_id |
string |
יכול להיות ריק | (תקף רק אם המקור הוא טבלה)test-table |
||
| data_quality_job_id | string |
יכול להיות ריק | caeba234-cfde-4fca-9e5b-fe02a9812e38 |
||
| data_quality_job_configuration | json |
trigger |
string |
יכול להיות ריק | schedule/ondemand |
incremental |
boolean |
יכול להיות ריק | false/true |
||
sampling_percent |
float |
יכול להיות ריק | (0-100)20.0 (מציין 20%) |
||
row_filter |
string |
יכול להיות ריק | col1 >= 0 AND col2 < 10 |
||
incremental_column |
string |
יכול להיות ריק | column_name |
||
| job_labels | json |
יכול להיות ריק | {"key1":value1} |
||
| job_start_time | timestamp |
יכול להיות ריק | 2023-01-01 00:00:00 UTC |
||
| job_end_time | timestamp |
יכול להיות ריק | 2023-01-01 00:00:00 UTC |
||
| job_quality_result | struct/record |
passed |
boolean |
יכול להיות ריק | false/true |
score |
float |
יכול להיות ריק | 90.8 |
||
incremental_start |
string |
יכול להיות ריק | 2023-01-01T00:00:00 |
||
incremental_end |
string |
יכול להיות ריק | 2024-01-01T00:00:00 |
||
| job_dimension_result | json |
יכול להיות ריק | {"ACCURACY":{"passed":true,"score":100},"CONSISTENCY":{"passed":false,"score":60}}
|
||
| job_rows_scanned | integer |
יכול להיות ריק | 7500 |
||
| rule_name | string |
יכול להיות ריק | test-rule |
||
| rule_description | string |
יכול להיות ריק | Test rule description |
||
| rule_type | string |
יכול להיות ריק | Range Check |
||
| rule_evaluation_type | string |
יכול להיות ריק | Per row |
||
| rule_column | string |
יכול להיות ריק | Rule only attached to a certain column |
||
| rule_dimension | string |
יכול להיות ריק | UNIQUENESS |
||
| rule_threshold_percent | float |
יכול להיות ריק | (0.0-100.0)Rule-threshold-pct in API * 100 |
||
| rule_parameters | json |
יכול להיות ריק | {min: 24, max:5345} |
||
| rule_passed | boolean |
יכול להיות ריק | true |
||
| rule_rows_evaluated | integer |
יכול להיות ריק | 7400 |
||
| rule_rows_passed | integer |
יכול להיות ריק | 3 |
||
| rule_rows_null | integer |
יכול להיות ריק | 4 |
||
| rule_failed_records_query | string |
יכול להיות ריק | "SELECT * FROM `test-project.test-dataset.test-table` WHERE (NOT((`cTime` >= '15:31:38.776361' and `cTime` <= '19:23:53.754823') IS TRUE));" |
||
| created_on | timestamp |
יכול להיות ריק | 2023-01-01 00:00:00 UTC |
||
| last_updated | timestamp |
יכול להיות ריק | 2023-01-01 00:00:00 UTC |
||
| rule_assertion_row_count | integer |
יכול להיות ריק | 10 |
||
| debug_queries | struct/record |
description |
string |
יכול להיות ריק | Test debug query description |
sql_statement |
string |
יכול להיות ריק | SELECT MIN(col1) AS min_col1, AVG(col1) FROM ${data()} |
||
debug_query_results |
struct/record |
חוזר | [{"name": "min_col1", "type": "INTEGER", "value": "5"}, {"type": "FLOAT", "value": "7"}] |
||
↳ name |
string |
יכול להיות ריק | השם של עמודת תוצאות השאילתה, כמו min_col1 |
||
↳ type |
string |
יכול להיות ריק | סוג העמודה בתוצאות השאילתה, למשל INTEGER |
||
↳ value |
string |
יכול להיות ריק | הערך של עמודת תוצאות השאילתה, כמו 5 |
כשמגדירים את BigQueryExport למשימת סריקה של איכות הנתונים, צריך לפעול לפי ההנחיות הבאות:
- בשדה
resultsTable, משתמשים בפורמט://bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}. - משתמשים בטבלה רגילה ב-BigQuery.
- אם הטבלה לא קיימת כשיוצרים או מעדכנים את הסריקה, Knowledge Catalog יוצר את הטבלה בשבילכם.
- כברירת מחדל, הטבלה מחולקת למחיצות בעמודה
job_start_timeמדי יום. - אם רוצים לחלק את הטבלה למחיצות בהגדרות אחרות או אם לא רוצים לחלק אותה למחיצות, צריך ליצור מחדש את הטבלה עם הסכימה וההגדרות הנדרשות, ואז לספק את הטבלה שנוצרה מראש כטבלת התוצאות.
- מוודאים שטבלת התוצאות נמצאת באותו מיקום כמו טבלת המקור.
- אם VPC-SC מוגדר בפרויקט, טבלת התוצאות צריכה להיות באותו היקף של VPC-SC כמו טבלת המקור.
- אם הטבלה משתנה במהלך שלב ההפעלה של הסריקה, המשימה הנוכחית מייצאת לטבלת התוצאות הקודמת, והשינוי בטבלה נכנס לתוקף החל ממשימת הסריקה הבאה.
- לא לשנות את סכימת הטבלה. אם אתם צריכים עמודות בהתאמה אישית, אתם יכולים ליצור תצוגה בטבלה.
- כדי להפחית את העלויות, מגדירים תפוגה למחיצה בהתאם לתרחיש השימוש. מידע נוסף זמין במאמר בנושא הגדרת תאריך התפוגה של המחיצה.
הפעלת סריקה של איכות הנתונים
המסוף
במסוף Google Cloud , עוברים לדף Knowledge Catalog (קטלוג הידע) Data profiling & quality (פרופיל ואיכות נתונים).
לוחצים על סריקת איכות הנתונים כדי להריץ אותה.
לוחצים על הפעלה מיידית.
gcloud
כדי להריץ סריקה של איכות הנתונים, משתמשים בפקודה gcloud dataplex datascans run:
gcloud dataplex datascans run DATASCAN \ --location=LOCATION \
מחליפים את המשתנים הבאים:
-
LOCATION: האזור Google Cloud שבו נוצר הסריקה של איכות הנתונים. DATASCAN: השם של הסריקה לאיכות הנתונים.
C#
C#
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי C#ההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog C# API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
המשך
Go
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Goההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Go API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Java API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Pythonההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Python API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Rubyההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Ruby API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי להריץ סריקה של איכות הנתונים, משתמשים ב-method dataScans.run.
ביטול של משימת סריקה של איכות הנתונים
אם משימת סריקה של איכות נתונים פועלת יותר זמן מהצפוי או שהיא הופעלה עם הגדרה שגויה, אפשר לבטל אותה. הפעולה הזו מתבצעת על בסיס הכי טוב שאפשר. אם העבודה כבר נמצאת במצב סופי (למשל SUCCEEDED או FAILED), בקשת הביטול מתעלמת.
תפקידים והרשאות נדרשים
כדי לקבל את ההרשאות שנדרשות לביטול של עבודת סריקה של איכות הנתונים, צריך לבקש מהאדמין להקצות לכם את תפקיד ה-IAM Dataplex Editor (roles/dataplex.editor) או Dataplex DataScan Administrator (roles/dataplex.dataScanAdmin) בפרויקט.
ביטול משימה
אפשר לבטל עבודת סריקה של איכות הנתונים שנמצאת בתהליך או בהמתנה באמצעות API בארכיטקטורת REST.
המסוף
במסוף Google Cloud , עוברים לדף Data profiling & quality.
לוחצים על השם של הסריקה של איכות הנתונים שמכילה את העבודה שרוצים לבטל.
בכרטיסייה היסטוריית משימות, מאתרים את המשימה עם הסטטוס פועל או בהמתנה.
לוחצים על הלחצן Cancel (ביטול) שמשויך לעבודה.
REST
משתמשים בשיטה projects.locations.dataScans.jobs.cancel.
POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID:cancel
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט. -
LOCATION: האזור שבו נמצאת סריקת הנתונים. -
DATASCAN_ID: המזהה של סריקת הנתונים. -
JOB_ID: המזהה של העבודה שרוצים לבטל.
הצגת תוצאות הסריקה של איכות הנתונים
המסוף
במסוף Google Cloud , עוברים לדף Knowledge Catalog (קטלוג הידע) Data profiling & quality (פרופיל ואיכות נתונים).
לוחצים על השם של סריקת איכות הנתונים.
בקטע סקירה כללית מוצג מידע על המשימות האחרונות, כולל מתי הסריקה בוצעה, מספר הרשומות שנסרקו בכל משימה, אם כל הבדיקות של איכות הנתונים עברו, ואם היו כשלים, מספר הבדיקות של איכות הנתונים שנכשלו.
בקטע הגדרות סריקת איכות הנתונים מוצגים פרטים על הסריקה.
כדי לראות מידע מפורט על עבודה, כמו ציוני איכות נתונים שמציינים את אחוז הכללים שעברו, אילו כללים נכשלו ויומני העבודה, לוחצים על הכרטיסייה היסטוריית העבודות. לאחר מכן לוחצים על מזהה משרה.
gcloud
כדי לראות את התוצאות של משימת סריקה של איכות הנתונים, משתמשים בפקודה gcloud dataplex datascans jobs describe:
gcloud dataplex datascans jobs describe JOB \ --location=LOCATION \ --datascan=DATASCAN \ --view=FULL
מחליפים את המשתנים הבאים:
-
JOB: מזהה המשימה של סריקת איכות הנתונים. -
LOCATION: האזור שבו נוצרה סריקת איכות הנתונים. Google Cloud -
DATASCAN: השם של הסריקה של איכות הנתונים שהעבודה שייכת לה. -
--view=FULL: כדי לראות את תוצאת עבודת הסריקה, מצייניםFULL.
C#
C#
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי C#ההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog C# API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
המשך
Go
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Goההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Go API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Java API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Pythonההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Python API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Rubyההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Ruby API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי לראות את התוצאות של סריקת איכות הנתונים, משתמשים בשיטה dataScans.get.
הצגת התוצאות שפורסמו
אם התוצאות של סריקת איכות הנתונים מתפרסמות כמטא-נתונים ב-Knowledge Catalog, אפשר לראות את התוצאות האחרונות של הסריקה בדפים של BigQuery ו-Knowledge Catalog במסוףGoogle Cloud , בכרטיסייה Data quality של טבלת המקור.
נכנסים לדף Search בקטלוג הידע במסוף Google Cloud .
מחפשים את הטבלה ובוחרים אותה.
לוחצים על הכרטיסייה איכות הנתונים.
מוצגות התוצאות האחרונות שפורסמו.
צפייה בתוצאות סריקה היסטוריות
ב-Knowledge Catalog נשמרת היסטוריית הסריקות של איכות הנתונים מ-300 המשימות האחרונות או מהשנה האחרונה, לפי המוקדם מביניהם.
המסוף
במסוף Google Cloud , עוברים לדף Knowledge Catalog (קטלוג הידע) Data profiling & quality (פרופיל ואיכות נתונים).
לוחצים על השם של סריקת איכות הנתונים.
לוחצים על הכרטיסייה היסטוריית המשרות.
בכרטיסייה היסטוריית העבודות מופיע מידע על עבודות קודמות, כמו מספר הרשומות שנסרקו בכל עבודה, סטטוס העבודה, השעה שבה העבודה בוצעה והאם כל כלל עבר או נכשל.
כדי לראות מידע מפורט על משימה, לוחצים על אחת מהמשימות בעמודה מזהה משימה.
gcloud
כדי להציג את המשימות ההיסטוריות של סריקת איכות הנתונים, משתמשים בפקודה gcloud dataplex datascans jobs list:
gcloud dataplex datascans jobs list \ --location=LOCATION \ --datascan=DATASCAN \
מחליפים את המשתנים הבאים:
-
LOCATION: האזור שבו נוצרה סריקת איכות הנתונים. Google Cloud -
DATASCAN: השם של הסריקה של איכות הנתונים שרוצים לראות את היסטוריית העבודות שלה.
C#
C#
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי C#ההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog C# API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
המשך
Go
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Goההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Go API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Java API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Pythonההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Python API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Rubyההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Ruby API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי לראות את המשימות ההיסטוריות של סריקת איכות הנתונים, משתמשים בשיטת dataScans.jobs.list.
הענקת גישה לתוצאות של סריקת איכות הנתונים
כדי לאפשר למשתמשים בארגון לראות את תוצאות הסריקה:
במסוף Google Cloud , עוברים לדף Knowledge Catalog (קטלוג הידע) Data profiling & quality (פרופיל ואיכות נתונים).
לוחצים על הסריקה של איכות הנתונים שרוצים לשתף את התוצאות שלה.
לוחצים על הכרטיסייה Permissions.
צריך לבצע את הפעולות הבאות:
- כדי להעניק גישה ל-Principal, לוחצים על Grant access. מקצים את התפקיד Dataplex DataScan DataViewer לחשבון המשתמש המשויך.
- כדי להסיר גישה מחשבון משתמש, בוחרים את החשבון שרוצים להסיר ממנו את התפקיד Dataplex DataScan DataViewer. לוחצים על הסרת הגישה ומאשרים כשמוצגת בקשה.
הגדרת התראות ב-Cloud Logging
כדי להגדיר התראות על כשלים באיכות הנתונים באמצעות היומנים ב-Cloud Logging:
המסוף
במסוף Google Cloud , נכנסים אל Cloud Logging Logs Explorer.
בחלון Query, מזינים את השאילתה. שאילתות לדוגמה
לוחצים על Run Query (הפעלת שאילתה).
לוחצים על יצירת התראה. תיפתח חלונית צדדית.
מזינים את השם של מדיניות ההתראות ולוחצים על הבא.
בודקים את השאילתה.
כדי לבדוק את השאילתה, לוחצים על הלחצן Preview Logs (תצוגה מקדימה של היומנים). הפעולה הזו תציג יומנים עם תנאים תואמים.
לוחצים על הבא.
מגדירים את הזמן בין ההתראות ולוחצים על הבא.
מגדירים למי תישלח ההתראה ולוחצים על שמירה כדי ליצור את מדיניות ההתראות.
לחלופין, אפשר להגדיר ולערוך את ההתראות דרך Monitoring > Alerting במסוףGoogle Cloud .
gcloud
לא נתמך.
REST
דוגמאות לשאילתות להגדרת התראות ברמת המשימה או ברמת המאפיין
שאילתה לדוגמה להגדרת התראות על כשלים באיכות הנתונים הכוללת בסריקה של איכות הנתונים:
resource.type="dataplex.googleapis.com/DataScan" AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED" AND resource.labels.resource_container="projects/112233445566" AND resource.labels.datascan_id="a0-test-dec6-dq-3" AND NOT jsonPayload.dataQuality.passed=trueדוגמה לשאילתה להגדרת התראות על כשלים באיכות הנתונים של מאפיין (למשל, ייחודיות) בסריקה נתונה של איכות הנתונים:
resource.type="dataplex.googleapis.com/DataScan" AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED" AND resource.labels.resource_container="projects/112233445566" AND resource.labels.datascan_id="a0-test-dec6-dq-3" AND jsonPayload.dataQuality.dimensionPassed.UNIQUENESS=falseשאילתה לדוגמה להגדרת התראות על כשלים באיכות הנתונים בטבלה.
הגדרת התראות על כשלים באיכות הנתונים בטבלה ב-BigQuery שלא מאורגנת באגם של Knowledge Catalog:
resource.type="dataplex.googleapis.com/DataScan" AND jsonPayload.dataSource="//bigquery.googleapis.com/projects/test-project/datasets/testdataset/table/chicago_taxi_trips" AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED" AND resource.labels.resource_container="projects/112233445566" AND NOT jsonPayload.dataQuality.passed=trueהגדרת התראות על כשלים באיכות הנתונים בטבלה ב-BigQuery שמאורגנת באגם של Knowledge Catalog:
resource.type="dataplex.googleapis.com/DataScan" AND jsonPayload.dataSource="projects/test-project/datasets/testdataset/table/chicago_taxi_trips" AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED" AND resource.labels.resource_container="projects/112233445566" AND NOT jsonPayload.dataQuality.passed=true
שאילתות לדוגמה להגדרת התראות לכל כלל
שאילתה לדוגמה להגדרת התראות על כל הכללים של איכות הנתונים שנכשלו, עם שם הכלל המותאם אישית שצוין לסריקת איכות הנתונים:
resource.type="dataplex.googleapis.com/DataScan" AND jsonPayload.ruleName="custom-name" AND jsonPayload.result="FAILED"שאילתה לדוגמה להגדרת התראות על כל כללי איכות הנתונים שנכשלים בסריקה של איכות הנתונים עבור סוג הערכה ספציפי:
resource.type="dataplex.googleapis.com/DataScan" AND jsonPayload.evalutionType="PER_ROW" AND jsonPayload.result="FAILED"שאילתה לדוגמה להגדרת התראות על כל הכללים לאיכות הנתונים שלא עומדים בדרישות בעמודה בטבלה שמשמשת לסריקה של איכות הנתונים:
resource.type="dataplex.googleapis.com/DataScan" AND jsonPayload.column="CInteger" AND jsonPayload.result="FAILED"
פתרון בעיות שקשורות לאיכות הנתונים
לכל עבודה עם כללים ברמת השורה שנכשלה, Knowledge Catalog מספק שאילתה לקבלת הרשומות שנכשלו. מריצים את השאילתה הזו כדי לראות את הרשומות שלא תאמו לכלל.
המסוף
במסוף Google Cloud , עוברים לדף Knowledge Catalog (קטלוג הידע) Data profiling & quality (פרופיל ואיכות נתונים).
לוחצים על השם של סריקת איכות הנתונים שרוצים לפתור בעיות ברשומות שלה.
לוחצים על הכרטיסייה היסטוריית המשרות.
לוחצים על מזהה המשימה של המשימה שבה זוהו כשלים באיכות הנתונים.
בחלון התוצאות של העבודה שנפתח, בקטע כללים, מוצאים את העמודה שאילתה לאחזור רשומות שנכשלו. לוחצים על העתקת השאילתה ללוח בשורה של הכלל שנכשל.
מריצים את השאילתה ב-BigQuery כדי לראות את הרשומות שגרמו לכשל במשימה.
gcloud
לא נתמך.
REST
כדי לקבל את המשימה שבה זוהו הכשלים באיכות הנתונים, משתמשים ב-method
dataScans.get.בשדה
failingRowsQueryשל אובייקט התשובה מוצגת השאילתה.מריצים את השאילתה ב-BigQuery כדי לראות את הרשומות שגרמו לכשל במשימה.
Knowledge Catalog מריץ גם את שאילתת ניפוי הבאגים, בתנאי שהיא נכללה במהלך יצירת הכלל. תוצאות שאילתת ניפוי הבאגים נכללות בפלט של כל כלל. התכונה הזו נמצאת בגרסת טרום-השקה.
המסוף
לא נתמך.
gcloud
לא נתמך.
REST
כדי לקבל את המשימה שבה זוהו הכשלים באיכות הנתונים, משתמשים ב-method dataScans.get.
באובייקט התגובה, השדה debugQueriesResultSets מציג את התוצאות של שאילתות הניפוי באגים.
ניהול סריקות של איכות הנתונים בטבלה ספציפית
השלבים במאמר הזה מראים איך לנהל סריקות של פרופילי נתונים בכל הפרויקט באמצעות הדף Data profiling & quality (פרופילים ואיכות של נתונים) ב-Knowledge Catalog (קטלוג הידע) במסוף Google Cloud .
אתם יכולים גם ליצור ולנהל סריקות של פרופיל נתונים כשאתם עובדים עם טבלה ספציפית. במסוף Google Cloud , בדף Knowledge Catalog של הטבלה, משתמשים בכרטיסייה איכות הנתונים. צריך לבצע את הפעולות הבאות:
נכנסים לדף Search של Knowledge Catalog במסוף Google Cloud .
מחפשים את הטבלה ובוחרים אותה.
לוחצים על הכרטיסייה איכות הנתונים.
בהתאם לשאלה אם הטבלה כוללת סריקה של איכות הנתונים שהתוצאות שלה פורסמו כמטא-נתונים ב-Knowledge Catalog, אפשר לעבוד עם הסריקות של איכות הנתונים בטבלה בדרכים הבאות:
תוצאות הסריקה של איכות הנתונים מתפרסמות: התוצאות האחרונות של הסריקה מוצגות בדף.
כדי לנהל את הסריקות של איכות הנתונים בטבלה הזו, לוחצים על סריקה של איכות הנתונים ובוחרים אחת מהאפשרויות הבאות:
יצירת סריקה חדשה: יצירת סריקה חדשה של איכות הנתונים. מידע נוסף זמין בקטע יצירת סריקה של איכות הנתונים במסמך הזה. כשיוצרים סריקה מדף הפרטים של טבלה, הטבלה נבחרת מראש.
הפעלה מיידית: הפעלת הסריקה.
עריכת הגדרות הסריקה: עריכת ההגדרות, כולל השם המוצג, המסננים והתזמון.
כדי לערוך את הכללים של איכות הנתונים, בכרטיסייה איכות הנתונים לוחצים על הכרטיסייה כללים. לוחצים על שינוי כללים. מעדכנים את הכללים ולוחצים על שמירה.
ניהול הרשאות הסריקה: קובעים למי תהיה גישה לתוצאות הסריקה. מידע נוסף זמין בקטע הענקת גישה לתוצאות של סריקת איכות הנתונים במסמך הזה.
הצגת תוצאות היסטוריות: הצגת מידע מפורט על משימות קודמות של סריקת איכות הנתונים. מידע נוסף זמין בקטעים הצגת תוצאות של סריקת איכות הנתונים והצגת תוצאות היסטוריות של סריקות במאמר הזה.
הצגת כל הסריקות: הצגת רשימה של סריקות איכות נתונים שרלוונטיות לטבלה הזו.
תוצאות הסריקה של איכות הנתונים לא מתפרסמות: בוחרים מבין האפשרויות הבאות:
יצירת סריקה של איכות הנתונים: יצירת סריקה חדשה של איכות הנתונים. מידע נוסף זמין בקטע יצירת סריקה של איכות הנתונים במסמך הזה. כשיוצרים סריקה מדף הפרטים של טבלה, הטבלה נבחרת מראש.
הצגת סריקות קיימות: הצגת רשימה של סריקות איכות נתונים שחלות על הטבלה הזו.
עדכון סריקה של איכות הנתונים
אפשר לערוך הגדרות שונות של סריקה קיימת של איכות הנתונים, כמו השם המוצג, המסננים, לוח הזמנים והכללים לאיכות הנתונים.
המסוף
במסוף Google Cloud , עוברים לדף Knowledge Catalog (קטלוג הידע) Data profiling & quality (פרופיל ואיכות נתונים).
לוחצים על השם של סריקת איכות הנתונים.
כדי לערוך את ההגדרות, כולל השם המוצג, המסננים והלוח זמנים, לוחצים על עריכה. עורכים את הערכים ולוחצים על שמירה.
כדי לערוך את הכללים של איכות הנתונים, בדף הפרטים של הסריקה, לוחצים על הכרטיסייה כללים נוכחיים. לוחצים על שינוי כללים. מעדכנים את הכללים ולוחצים על שמירה.
gcloud
כדי לעדכן את התיאור של סריקת איכות נתונים, משתמשים בפקודה gcloud dataplex datascans update data-quality:
gcloud dataplex datascans update data-quality DATASCAN \ --location=LOCATION \ --description=DESCRIPTION
מחליפים את מה שכתוב בשדות הבאים:
-
DATASCAN: השם של סריקת איכות הנתונים שרוצים לעדכן. -
LOCATION: האזור שבו נוצרה סריקת איכות הנתונים. Google Cloud -
DESCRIPTION: התיאור החדש של הסריקה לאיכות הנתונים.
C#
C#
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי C#ההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog C# API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
המשך
Go
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Goההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Go API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Java API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Pythonההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Python API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Rubyההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Ruby API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי לערוך סריקה של איכות הנתונים, משתמשים ב-method dataScans.patch.
מחיקת סריקה של איכות הנתונים
המסוף
המסוף
במסוף Google Cloud , עוברים לדף Knowledge Catalog (קטלוג הידע) Data profiling & quality (פרופיל ואיכות נתונים).
לוחצים על הסריקה שרוצים למחוק.
לוחצים על מחיקה ומאשרים כשמוצגת בקשה.
gcloud
gcloud
כדי למחוק סריקה של איכות הנתונים, משתמשים בפקודה gcloud dataplex datascans delete:
gcloud dataplex datascans delete DATASCAN \ --location=LOCATION \ --async
מחליפים את המשתנים הבאים:
DATASCAN: השם של סריקת איכות הנתונים שרוצים למחוק.-
LOCATION: האזור שבו נוצרה סריקת איכות הנתונים. Google Cloud
C#
C#
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי C#ההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog C# API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
המשך
Go
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Goההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Go API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Java API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Pythonההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Python API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Rubyההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Ruby API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
REST
כדי למחוק סריקה של איכות הנתונים, משתמשים בשיטת dataScans.delete.
המאמרים הבאים
- אפשר לפעול לפי הדרכה כדי ליצור פרופיל של נתונים ולוודא את האיכות שלהם באמצעות AI.
- אפשר לפעול לפי מדריך כדי לנהל כללים של איכות נתונים כקוד באמצעות Terraform.
- מידע נוסף על פרופילים של נתונים
- איך משתמשים בפרופיל נתונים