בעזרת Knowledge Catalog (לשעבר Dataplex Universal Catalog) אפשר לזהות מאפיינים סטטיסטיים נפוצים (ערכים נפוצים, פיזור נתונים, מספרים של ערכים ריקים) של העמודות בטבלאות BigQuery. המידע הזה עוזר להבין ולנתח את הנתונים בצורה יעילה יותר.
מידע נוסף על סריקות פרופיל נתונים ב-Knowledge Catalog זמין במאמר בנושא פרופיל נתונים.
לפני שמתחילים
מפעילים את Dataplex API.
תפקידים שנדרשים להפעלת ממשקי API
כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאה serviceusage.services.enable. איך מקצים תפקידים
תפקידים והרשאות נדרשים
בקטע הזה מפורטים התפקידים וההרשאות ב-IAM שנדרשים כדי להשתמש בסריקות של פרופילי נתונים ב-Knowledge Catalog.
תפקידים והרשאות של משתמשים
כדי לקבל את ההרשאות שדרושות ליצירה ולניהול של סריקות פרופיל נתונים, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים:
-
יצירה, הפעלה, עדכון ומחיקה של סריקות פרופיל נתונים:
Dataplex DataScan Editor (
roles/dataplex.dataScanEditor) בפרויקט שמכיל את סריקת הנתונים -
צפייה בתוצאות של סריקת פרופיל נתונים, במשימות ובהיסטוריה:
Dataplex DataScan Viewer (
roles/dataplex.dataScanViewer) בפרויקט שמכיל את סריקת הנתונים -
פרסום תוצאות הסריקה של פרופיל הנתונים ב-Knowledge Catalog:
Dataplex Catalog Editor (
roles/dataplex.catalogEditor) בקבוצת הרשומות@bigquery -
כדי לראות את תוצאות הסריקה של פרופיל הנתונים שפורסם ב-BigQuery, עוברים לכרטיסייה פרופיל נתונים:
BigQuery Data Viewer (
roles/bigquery.dataViewer) בטבלה
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות ליצירה ולניהול של סריקות פרופיל נתונים. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי ליצור ולנהל סריקות של פרופיל נתונים, צריך את ההרשאות הבאות:
-
יצירה, הפעלה, עדכון ומחיקה של סריקות פרופיל נתונים:
-
dataplex.datascans.createבפרויקט -
dataplex.datascans.updateבסריקת נתונים -
dataplex.datascans.deleteבסריקת נתונים -
dataplex.datascans.runבסריקת נתונים -
dataplex.datascans.getבסריקת נתונים -
dataplex.datascans.listבפרויקט -
dataplex.dataScanJobs.getבמשימת סריקת נתונים -
dataplex.dataScanJobs.listבסריקת נתונים
-
-
הצגת תוצאות הסריקה של פרופיל הנתונים, המשימות וההיסטוריה:
-
dataplex.datascans.getDataבסריקת נתונים -
dataplex.datascans.listבפרויקט -
dataplex.dataScanJobs.getבמשימת סריקת נתונים -
dataplex.dataScanJobs.listבסריקת נתונים
-
-
פרסום תוצאות של סריקת פרופיל נתונים ב-Knowledge Catalog:
-
dataplex.entryGroups.useDataProfileAspecton entry group -
bigquery.tables.updateבטבלה -
dataplex.entries.updateon entry
-
-
כדי לראות את התוצאות של פרופיל הנתונים שפורסם עבור טבלה ב-BigQuery או ב-Knowledge Catalog:
-
bigquery.tables.getבטבלה -
bigquery.tables.getDataבטבלה
-
יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
תפקידים והרשאות של חשבון שירות ב-Knowledge Catalog
כדי לוודא שלחשבון השירות של Knowledge Catalog יש את ההרשאות שנדרשות להרצת סריקות של פרופילי נתונים ולייצוא התוצאות, צריך לבקש מהאדמין להקצות לחשבון השירות של Knowledge Catalog את תפקידי ה-IAM הבאים:
-
מריצים סריקות של פרופיל נתונים על נתונים ב-BigQuery:
- BigQuery Job User (
roles/bigquery.jobUser) בפרויקט שבו מופעלת הסריקה - BigQuery Data Viewer (צפייה בנתוני BigQuery) (
roles/bigquery.dataViewer) בטבלאות שנסרקות
- BigQuery Job User (
-
הפעלת סריקות של פרופיל נתונים לטבלאות חיצוניות ב-BigQuery שמשתמשות בנתונים מ-Cloud Storage:
- צפייה באובייקט אחסון (
roles/storage.objectViewer) בקטגוריה של Cloud Storage - Storage Legacy Bucket Reader (
roles/storage.legacyBucketReader) on Cloud Storage bucket
- צפייה באובייקט אחסון (
-
הפעלת סריקות של פרופיל נתונים לטבלאות של Iceberg REST Catalog ב- Google Cloud Lakehouse:
BigLake Viewer (
roles/biglake.viewer) בטבלאות של Iceberg Rest Catalog שנסרקות -
ייצוא תוצאות הסריקה של פרופיל הנתונים לטבלה ב-BigQuery:
BigQuery Data Editor (עריכה של נתוני BigQuery)
roles/bigquery.dataEditorבטבלה
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות להפעלת סריקות של פרופיל נתונים ולייצוא תוצאות. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:
ההרשאות הנדרשות
כדי להריץ סריקות של פרופיל נתונים ולייצא תוצאות, נדרשות ההרשאות הבאות:
-
מריצים סריקות של פרופיל נתונים על נתונים ב-BigQuery:
-
bigquery.jobs.createבפרויקט -
bigquery.tables.getבטבלה -
bigquery.tables.getDataבטבלה
-
-
הפעלת סריקות של פרופיל נתונים לטבלאות חיצוניות ב-BigQuery שמשתמשות בנתונים מ-Cloud Storage:
-
storage.buckets.getבקטגוריה -
storage.objects.getבאובייקט
-
-
מייצאים את תוצאות הסריקה של פרופיל הנתונים לטבלה ב-BigQuery:
-
bigquery.tables.createבמערך הנתונים -
bigquery.tables.updateDataבטבלה
-
יכול להיות שהאדמין יוכל גם להעניק לחשבון השירות של Knowledge Catalog את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
אם בטבלה נעשה שימוש באבטחה ברמת השורה ב-BigQuery, Knowledge Catalog יכול לסרוק רק את השורות שחשבון השירות של Knowledge Catalog יכול לראות. כדי לאפשר ל-Knowledge Catalog לסרוק את כל השורות, צריך להוסיף את חשבון השירות שלו למסנן שורות שבו התנאי הוא TRUE.
אם בטבלה נעשה שימוש באבטחה ברמת העמודה ב-BigQuery, צריך לתת ל-Knowledge Catalog גישה לסריקת עמודות מוגנות. כדי לתת גישה, צריך להקצות לחשבון השירות של Knowledge Catalog את התפקיד Data Catalog Fine-Grained Reader (roles/datacatalog.fineGrainedReader) בכל תגי המדיניות שמשמשים בטבלה. למשתמש שיוצר או מעדכן סריקת נתונים צריכות להיות גם הרשאות לעמודות מוגנות.
הקצאת תפקידים לחשבון השירות של קטלוג הידע
כדי להריץ סריקות של פרופיל נתונים, Knowledge Catalog משתמש בחשבון שירות שנדרשות לו הרשאות להרצת משימות ב-BigQuery ולקריאת נתונים מטבלאות ב-BigQuery. כדי להקצות את התפקידים הנדרשים, פועלים לפי השלבים הבאים:
מקבלים את כתובת האימייל של חשבון השירות של קטלוג הידע. אם לא יצרתם בפרויקט הזה פרופיל נתונים או סריקה של איכות הנתונים, מריצים את הפקודה הבאה
gcloudכדי ליצור את זהות השירות:gcloud beta services identity create --service=dataplex.googleapis.comהפקודה מחזירה את כתובת האימייל של חשבון השירות, בפורמט הבא: service-PROJECT_ID@gcp-sa-dataplex.iam.gserviceaccount.com.
אם חשבון השירות כבר קיים, אפשר למצוא את כתובת האימייל שלו בתצוגת הגורמים עם השם Dataplex בדף IAM במסוף Google Cloud .
נותנים לחשבון השירות את התפקיד BigQuery Job User (
roles/bigquery.jobUser) בפרויקט. התפקיד הזה מאפשר לחשבון השירות להריץ משימות של BigQuery לסריקה.gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com" \ --role="roles/bigquery.jobUser"מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט ב- Google Cloud . -
service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com: כתובת האימייל של חשבון השירות של Knowledge Catalog.
-
מעניקים לחשבון השירות את התפקיד BigQuery Data Viewer (
roles/bigquery.dataViewer) לכל טבלה שרוצים ליצור לה פרופיל. התפקיד הזה מעניק הרשאת קריאה בלבד לטבלאות.gcloud bigquery tables add-iam-policy-binding DATASET_ID.TABLE_ID \ --member="serviceAccount:service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com" \ --role="roles/bigquery.dataViewer"מחליפים את מה שכתוב בשדות הבאים:
-
DATASET_ID: המזהה של מערך הנתונים שמכיל את הטבלה. -
TABLE_ID: המזהה של הטבלה שרוצים ליצור לה פרופיל. -
service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com: כתובת האימייל של חשבון השירות של Knowledge Catalog.
-
הגדרת זהות ההרצה
כברירת מחדל, סריקות של פרופיל נתונים מופעלות באמצעות סוכן שירות של Knowledge Catalog. אפשר לשנות את ברירת המחדל כדי להשתמש בחשבון שירות מותאם אישית או בפרטי כניסה של משתמש קצה (EUC) משלכם.
שימוש בזהות ביצוע מותאמת אישית משנה את אופן החיוב של הסריקה. כשמציינים זהות ביצוע מותאמת אישית, עלויות החישוב והאחסון שמשויכות לסריקה מחויבות ישירות בפרויקט BigQuery, בלי לעבור דרך המק"טים הרגילים של Knowledge Catalog Premium.
הרשאות שנדרשות לזהויות מותאמות אישית להרצת תהליכים
כדי להגדיר חשבון שירות בהתאמה אישית או להשתמש בפרטי כניסה של משתמש קצה, אתם צריכים את הרשאות ה-IAM הנוספות הבאות:
- כדי להשתמש בחשבון שירות בהתאמה אישית, אתם צריכים את ההרשאות הבאות:
- ההרשאה
iam.serviceAccounts.actAsשניתנה לפרויקט שמכיל את חשבון השירות (לדוגמה,roles/iam.serviceAccountUser). - לסוכן השירות של הפרויקט (
service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) צריכה להיות ההרשאהiam.serviceAccounts.getAccessTokenבחשבון השירות המותאם אישית (לדוגמה, אם מוקצה לו התפקידroles/iam.serviceAccountTokenCreator). - לחשבון השירות המותאם אישית צריך להיות
bigquery.tables.getDataבטבלה כדי לסרוק,bigquery.jobs.insertבפרויקט הסריקה וbigquery.dataEditorבמערך הנתונים לייצוא (אם משתמשים בייצוא).
- ההרשאה
- כדי להשתמש בפרטי כניסה של משתמשי קצה, צריך:
bigquery.tables.getDataעל השולחן כדי לסרוק.-
bigquery.jobs.insertבפרויקט הסריקה. -
bigquery.dataEditorבמערך הנתונים לייצוא (אם משתמשים בייצוא).
כדי להגדיר את זהות ההרצה, בוחרים באחת מהאפשרויות הבאות:
המסוף
כדי להגדיר את זהות ההרצה במסוף Google Cloud , בוחרים את הזהות כשיוצרים סריקה של פרופיל הנתונים.
בקטע Execution Identity, בוחרים באחת מהאפשרויות הבאות:
- חשבון שירות Dataplex: התנהגות ברירת המחדל.
- Specific service account (חשבון שירות ספציפי): מזינים את כתובת האימייל של חשבון השירות שרוצים להשתמש בו.
- פרטי כניסה של משתמש: משתמשים בפרטי הכניסה שלכם כדי להריץ את הסריקה.
REST
כדי להשתמש בחשבון שירות מותאם אישית, מוסיפים את האובייקט executionIdentity להגדרת המשאב DataScan במהלך הבקשה create:
"executionIdentity": { "serviceAccount": { "email": "YOUR_SERVICE_ACCOUNT_EMAIL" } }
מחליפים את מה שכתוב בשדות הבאים:
YOUR_SERVICE_ACCOUNT_EMAIL: כתובת האימייל של חשבון השירות שבו רוצים להשתמש.
כדי להשתמש בפרטי כניסה של משתמשי קצה, צריך לציין את האובייקט userCredential במקום זאת:
"executionIdentity": { "userCredential": {} }
יצירת סריקה של פרופיל נתונים
המסוף
במסוף Google Cloud , עוברים לדף Knowledge Catalog (קטלוג הידע) Data profiling & quality (פרופיל ואיכות נתונים).
לוחצים על יצירת סריקה של פרופיל נתונים.
אופציונלי: מזינים שם לתצוגה.
מזינים מזהה. מוסכמות למתן שמות למשאבים
אופציונלי: מזינים תיאור.
בשדה טבלה, לוחצים על עיון. בוחרים את הטבלה שרוצים לסרוק ולוחצים על בחירה. יש תמיכה רק בטבלאות של קטלוג BigQuery סטנדרטי ושל קטלוג Iceberg REST.
עבור טבלאות במערכי נתונים במספר אזורים, בוחרים אזור שבו ייסרקו הנתונים.
כדי לעיין בטבלאות שמאורגנות באגמי Knowledge Catalog, לוחצים על עיון באגמי Knowledge Catalog.
בקטע מצב, בוחרים באחת מהאפשרויות הבאות:
רגיל: פרופיל הנתונים עם הגדרות סריקה שניתנות להתאמה אישית. זהו מצב ברירת המחדל.
קל משקל: מספק תובנות מהירות עם זמן אחזור קצר וסריקה ברמת דיוק נמוכה.
אם בחרתם במצב רגיל, צריך להגדיר את האפשרויות הבאות. האפשרויות האלה לא מופיעות כשבוחרים במצב קל משקל.
בשדה היקף, בוחרים באפשרות מצטבר או כל הנתונים.
אם בוחרים באפשרות נתונים מצטברים, בשדה עמודת חותמת זמן בוחרים עמודה מסוג
DATEאוTIMESTAMPמטבלה ב-BigQuery. Knowledge Catalog משתמש בעמודה הזו כדי לזהות רשומות חדשות כשהן מתווספות. לטבלאות שמחולקות למחיצות בעמודה מסוגDATEאוTIMESTAMP, מומלץ להשתמש בעמודה הזו כעמודת המחיצה.אופציונלי: כדי לסנן את הנתונים, מבצעים אחת מהפעולות הבאות:
כדי לסנן לפי שורות, מסמנים את תיבת הסימון סינון שורות. מזינים ביטוי SQL תקין שאפשר להשתמש בו בפסקה
WHEREבתחביר GoogleSQL. לדוגמה:col1 >= 0.המסנן יכול להיות שילוב של תנאי SQL בכמה עמודות. לדוגמה:
col1 >= 0 AND col2 < 10.כדי לסנן לפי עמודות, מסמנים את התיבה Filter columns.
כדי לכלול עמודות בסריקת הפרופיל, בשדה Include columns (כלול עמודות), לוחצים על Browse (עיון). בוחרים את העמודות שרוצים לכלול ולוחצים על בחירה.
כדי להחריג עמודות מתוך סריקת הפרופיל, בשדה Exclude columns (החרגת עמודות), לוחצים על Browse (עיון), בוחרים את העמודות שרוצים להחריג ואז לוחצים על Select (בחירה).
כדי להחיל דגימה על סריקת פרופיל הנתונים, בוחרים אחוז דגימה ברשימה גודל הדגימה. בוחרים ערך באחוזים בטווח שבין 0.0% ל-100.0%, עם עד 3 ספרות אחרי הנקודה העשרונית.
בקבוצות נתונים גדולות יותר, כדאי לבחור אחוז דגימה נמוך יותר. לדוגמה, אם הטבלה היא בגודל 1 PB, והזנתם ערך בין 0.1% ל-1.0%, פרופיל הנתונים יכלול דגימה של נתונים בגודל 1-10 TB.
כדי לקבל תוצאה, צריכות להיות לפחות 100 רשומות בנתונים שנדגמו.
בסריקות מצטברות של נתונים, סריקת פרופיל הנתונים מחילה דגימה על התוספת האחרונה.
אופציונלי: פרסום תוצאות הסריקה של פרופיל הנתונים בדפים BigQuery ו-Knowledge Catalog במסוףGoogle Cloud עבור טבלת המקור. בוחרים בתיבת הסימון פרסום תוצאות ב-Knowledge Catalog.
אפשר לראות את תוצאות הסריקה האחרונות בכרטיסייה פרופיל נתונים בדפים של BigQuery ושל Knowledge Catalog עבור טבלת המקור. כדי לאפשר למשתמשים לגשת לתוצאות הסריקה שפורסמו, אפשר לעיין בקטע הענקת גישה לתוצאות סריקה של פרופיל נתונים במסמך הזה.
יכול להיות שהאפשרות לפרסום לא תהיה זמינה במקרים הבאים:
- אין לכם את ההרשאות הנדרשות בטבלה.
- סריקה נוספת של פרופיל נתונים מוגדרת לפרסום תוצאות.
בקטע תזמון, בוחרים באחת מהאפשרויות הבאות:
חזרה: הפעלת הסריקה של פרופיל הנתונים לפי תזמון: מדי שעה, מדי יום, מדי שבוע, מדי חודש או בהתאמה אישית. מציינים באיזו תדירות ובאיזו שעה הסריקה תופעל. אם בוחרים באפשרות 'בהתאמה אישית', צריך להשתמש בפורמט cron כדי לציין את התזמון.
על פי דרישה: הפעלת סריקת פרופיל הנתונים על פי דרישה.
הרצה חד-פעמית: הרצת הסריקה של פרופיל הנתונים פעם אחת עכשיו, והסרת הסריקה אחרי זמן המחיקה האוטומטית. התכונה הזו נמצאת בתצוגה מקדימה.
- הגדרת מחיקה אוטומטית של תוצאות אחרי סריקה: זמן המחיקה האוטומטית מגדיר את משך הזמן שסריקת פרופיל נתונים נשארת פעילה אחרי ההפעלה. סריקת פרופיל נתונים ללא הגדרת זמן מחיקה אוטומטית מוסרת אוטומטית אחרי 24 שעות. זמן המחיקה האוטומטית יכול להיות בין 0 שניות (מחיקה מיידית) ל-365 ימים.
לוחצים על Continue.
אופציונלי: מייצאים את תוצאות הסריקה לטבלה רגילה ב-BigQuery. בקטע Export scan results to BigQuery table (ייצוא תוצאות הסריקה לטבלה ב-BigQuery), מבצעים את הפעולות הבאות:
בשדה Select BigQuery dataset, לוחצים על Browse ובוחרים מערך נתונים ב-BigQuery לאחסון תוצאות הסריקה של פרופיל הנתונים.
בשדה BigQuery table, מציינים את הטבלה שבה רוצים לאחסן את תוצאות הסריקה של פרופיל הנתונים. אם משתמשים בטבלה קיימת, צריך לוודא שהיא תואמת לסכימת טבלת הייצוא. אם הטבלה שצוינה לא קיימת, Knowledge Catalog יוצר אותה בשבילכם.
אופציונלי: מוסיפים תוויות. תוויות הן צמדי מפתח/ערך שמאפשרים לקשר בין אובייקטים או ביניהם לבין משאבים אחרים של Google Cloud .
כדי ליצור את הסריקה, לוחצים על יצירה.
אם הגדרתם את התזמון להפעלה לפי דרישה, תוכלו גם להריץ את הסריקה עכשיו בלחיצה על הפעלת הסריקה.
gcloud
כדי ליצור סריקה של פרופיל נתונים, משתמשים בפקודה gcloud dataplex datascans create data-profile.
אם נתוני המקור מאורגנים באגם של Knowledge Catalog, צריך לכלול את הדגל --data-source-entity:
gcloud dataplex datascans create data-profile DATASCAN \ --location=LOCATION \ --data-source-entity=DATA_SOURCE_ENTITY
אם נתוני המקור לא מאורגנים באגם של Knowledge Catalog, צריך לכלול את הדגל --data-source-resource:
gcloud dataplex datascans create data-profile DATASCAN \ --location=LOCATION \ --data-source-resource=DATA_SOURCE_RESOURCE
מחליפים את המשתנים הבאים:
-
DATASCAN: השם של סריקת פרופיל הנתונים. -
LOCATION: Google Cloud האזור שבו ייסרק פרופיל הנתונים. -
DATA_SOURCE_ENTITY: הישות ב-Knowledge Catalog שמכילה את הנתונים של סריקת פרופיל הנתונים. לדוגמה,projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity. -
DATA_SOURCE_RESOURCE: השם של המשאב שמכיל את הנתונים לסריקת פרופיל הנתונים. לדוגמה,//bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.
C#
C#
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי C#ההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog C# API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
המשך
Go
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Goההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Go API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Java API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Pythonההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Python API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Rubyההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Ruby API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי ליצור סריקה של פרופיל נתונים, משתמשים ב-method dataScans.create.
ייצוא סכמת הטבלה
אם רוצים לייצא את תוצאות הסריקה של פרופיל הנתונים לטבלה קיימת ב-BigQuery, צריך לוודא שהיא תואמת לסכימת הטבלה הבאה:
| שם עמודה | סוג הנתונים בעמודה | שם שדה משנה (אם רלוונטי) | סוג הנתונים של שדה משנה | מצב | דוגמה |
|---|---|---|---|---|---|
| data_profile_scan | struct/record |
resource_name |
string |
יכול להיות ריק | //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan |
project_id |
string |
יכול להיות ריק | test-project |
||
location |
string |
יכול להיות ריק | us-central1 |
||
data_scan_id |
string |
יכול להיות ריק | test-datascan |
||
| data_source | struct/record |
resource_name |
string |
יכול להיות ריק |
מספר הפנייה שקשורה לישות:
טבלה:
|
dataplex_entity_project_id |
string |
יכול להיות ריק | test-project |
||
dataplex_entity_project_number |
integer |
יכול להיות ריק | 123456789012 |
||
dataplex_lake_id |
string |
יכול להיות ריק |
(תקף רק אם המקור הוא ישות)
|
||
dataplex_zone_id |
string |
יכול להיות ריק |
(תקף רק אם המקור הוא ישות)
|
||
dataplex_entity_id |
string |
יכול להיות ריק |
(תקף רק אם המקור הוא ישות)
|
||
table_project_id |
string |
יכול להיות ריק | dataplex-table |
||
table_project_number |
int64 |
יכול להיות ריק | 345678901234 |
||
dataset_id |
string |
יכול להיות ריק |
(תקף רק אם המקור הוא טבלה)
|
||
table_id |
string |
יכול להיות ריק |
(תקף רק אם המקור הוא טבלה)
|
||
| data_profile_job_id | string |
יכול להיות ריק | caeba234-cfde-4fca-9e5b-fe02a9812e38 |
||
| data_profile_job_configuration | json |
trigger |
string |
יכול להיות ריק | schedule/ondemand |
incremental |
boolean |
יכול להיות ריק | false/true |
||
sampling_percent |
float |
יכול להיות ריק |
(0-100)
|
||
row_filter |
string |
יכול להיות ריק | col1 >= 0 AND col2 < 10 |
||
column_filter |
json |
יכול להיות ריק | {"include_fields":["col1","col2"], "exclude_fields":["col3"]} |
||
| job_labels | json |
יכול להיות ריק | {"key1":value1} |
||
| job_start_time | timestamp |
יכול להיות ריק | 2023-01-01 00:00:00 UTC |
||
| job_end_time | timestamp |
יכול להיות ריק | 2023-01-01 00:00:00 UTC |
||
| job_rows_scanned | integer |
יכול להיות ריק | 7500 |
||
| column_name | string |
יכול להיות ריק | column-1 |
||
| column_type | string |
יכול להיות ריק | string |
||
| column_mode | string |
יכול להיות ריק | repeated |
||
| percent_null | float |
יכול להיות ריק |
(0.0-100.0)
|
||
| percent_unique | float |
יכול להיות ריק |
(0.0-100.0)
|
||
| min_string_length | integer |
יכול להיות ריק |
(ההגדרה תקפה רק אם סוג העמודה הוא מחרוזת)
|
||
| max_string_length | integer |
יכול להיות ריק |
(ההגדרה תקפה רק אם סוג העמודה הוא מחרוזת)
|
||
| average_string_length | float |
יכול להיות ריק |
(ההגדרה תקפה רק אם סוג העמודה הוא מחרוזת)
|
||
| min_value | float |
יכול להיות ריק | (תקף רק אם סוג העמודה הוא מספרי – מספר שלם או מספר עשרוני) | ||
| max_value | float |
יכול להיות ריק | (תקף רק אם סוג העמודה הוא מספרי – מספר שלם או מספר עשרוני) | ||
| average_value | float |
יכול להיות ריק | (תקף רק אם סוג העמודה הוא מספרי – מספר שלם או מספר עשרוני) | ||
| standard_deviation | float |
יכול להיות ריק | (תקף רק אם סוג העמודה הוא מספרי – מספר שלם או מספר עשרוני) | ||
| quartile_lower | integer |
יכול להיות ריק | (תקף רק אם סוג העמודה הוא מספרי – מספר שלם או מספר עשרוני) | ||
| quartile_median | integer |
יכול להיות ריק | (תקף רק אם סוג העמודה הוא מספרי – מספר שלם או מספר עשרוני) | ||
| quartile_upper | integer |
יכול להיות ריק | (תקף רק אם סוג העמודה הוא מספרי – מספר שלם או מספר עשרוני) | ||
| top_n | struct/record - repeated |
value |
string |
יכול להיות ריק | "4009" |
count |
integer |
יכול להיות ריק | 20 |
||
percent |
float |
יכול להיות ריק | 10 (מציין 10%) |
ייצוא של הגדרת הטבלה
כשמייצאים לטבלאות של BigQueryExport, צריך לפעול לפי ההנחיות הבאות:
- בשדה
resultsTable, משתמשים בפורמט://bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}. - משתמשים בטבלה רגילה ב-BigQuery.
- אם הטבלה לא קיימת כשיוצרים או מעדכנים את הסריקה, Knowledge Catalog יוצר את הטבלה בשבילכם.
- כברירת מחדל, הטבלה מחולקת למחיצות בעמודה
job_start_timeמדי יום. - אם רוצים לחלק את הטבלה למחיצות בהגדרות אחרות או אם לא רוצים לחלק אותה למחיצות, צריך ליצור מחדש את הטבלה עם הסכימה וההגדרות הנדרשות, ואז לספק את הטבלה שנוצרה מראש כטבלת התוצאות.
- מוודאים שטבלת התוצאות נמצאת באותו מיקום כמו טבלת המקור.
- אם VPC-SC מוגדר בפרויקט, טבלת התוצאות צריכה להיות באותו היקף של VPC-SC כמו טבלת המקור.
- אם הטבלה משתנה במהלך שלב ההפעלה של הסריקה, המשימה הנוכחית מייצאת לטבלת התוצאות הקודמת, והשינוי בטבלה נכנס לתוקף החל ממשימת הסריקה הבאה.
- אל תשנו את סכימת הטבלה. אם אתם צריכים עמודות בהתאמה אישית, אתם יכולים ליצור תצוגה בטבלה.
- כדי לצמצם את העלויות, כדאי להגדיר תאריך תפוגה למחיצה בהתאם לתרחיש השימוש. מידע נוסף זמין במאמר בנושא הגדרת תאריך תפוגה למחיצה.
יצירת כמה סריקות של פרופיל נתונים
אפשר להגדיר סריקות של פרופיל נתונים לכמה טבלאות במערך נתונים ב-BigQuery בו-זמנית באמצעות מסוף Google Cloud .
במסוף Google Cloud , עוברים לדף Knowledge Catalog (קטלוג הידע) Data profiling & quality (פרופיל ואיכות נתונים).
לוחצים על יצירת סריקה של פרופיל נתונים.
בוחרים באפשרות סריקות מרובות של פרופילים של נתונים.
מזינים קידומת למזהה. Knowledge Catalog יוצר באופן אוטומטי מזהי סריקה באמצעות הקידומת והסיומות הייחודיות שצוינו.
מזינים תיאור לכל הסריקות של פרופיל הנתונים.
בשדה Dataset, לוחצים על Browse. בוחרים קבוצת נתונים שממנה רוצים לבחור טבלאות. לוחצים על Select.
אם מערך הנתונים הוא רב-אזורי, בוחרים אזור שבו ייסרקו פרופילי הנתונים.
בקטע מצב, בוחרים באחת מהאפשרויות הבאות:
רגיל: פרופיל הנתונים עם הגדרות סריקה שניתנות להתאמה אישית. זהו מצב ברירת המחדל.
קל משקל: מספק תובנות מהירות עם סריקה בזמן אחזור קצר ובדיוק נמוך. התכונה הזו נמצאת בגרסת טרום-השקה.
אם בחרתם במצב רגיל, מגדירים את ההגדרות הבאות לסריקות. ההגדרות האלה לא מופיעות כשבוחרים במצב קל משקל.
בשדה היקף, בוחרים באפשרות מצטבר או כל הנתונים.
אם בוחרים בנתונים מצטברים, אפשר לבחור רק טבלאות שמחולקות למחיצות בעמודה מסוג
DATEאוTIMESTAMP.כדי להחיל דגימה על הסריקות של פרופיל הנתונים, בוחרים אחוז דגימה ברשימה גודל הדגימה.
בוחרים ערך אחוזים בין 0.0% ל-100.0% עם עד 3 ספרות עשרוניות.
אופציונלי: מפרסמים את תוצאות הסריקה של פרופיל הנתונים בדפים BigQuery ו-Knowledge Catalog במסוףGoogle Cloud של טבלת המקור. מסמנים את התיבה פרסום התוצאות ב-Knowledge Catalog.
אפשר לראות את תוצאות הסריקה האחרונות בכרטיסייה פרופיל נתונים בדפים של BigQuery ושל Knowledge Catalog עבור טבלת המקור. כדי לאפשר למשתמשים לגשת לתוצאות הסריקה שפורסמו, אפשר לעיין בקטע הענקת גישה לתוצאות של סריקת פרופיל נתונים במסמך הזה.
בקטע תזמון, בוחרים באחת מהאפשרויות הבאות:
חזרה: הפעלת הסריקות של פרופיל הנתונים לפי תזמון: שעתי, יומי, שבועי, חודשי או מותאם אישית. מציינים באיזו תדירות ובאיזו שעה הסריקות יופעלו. אם בוחרים באפשרות 'מותאם אישית', צריך להשתמש בפורמט cron כדי לציין את התזמון.
על פי דרישה: הרצת סריקות של פרופיל הנתונים על פי דרישה.
הרצה חד-פעמית: הרצת הסריקה של פרופיל הנתונים פעם אחת עכשיו, והסרת הסריקה אחרי זמן המחיקה האוטומטית. התכונה הזו נמצאת בגרסת טרום-השקה.
- הגדרת מחיקה אוטומטית של תוצאות אחרי סריקה: זמן המחיקה האוטומטית מגדיר את משך הזמן שסריקת פרופיל נתונים נשארת פעילה אחרי ההפעלה. סריקת פרופיל נתונים ללא זמן מחיקה אוטומטית מוגדר מוסרת באופן אוטומטי אחרי 24 שעות. זמן המחיקה האוטומטית יכול להיות בין 0 שניות (מחיקה מיידית) ל-365 ימים.
לוחצים על Continue.
בשדה Choose tables, לוחצים על Browse. בוחרים טבלה אחת או יותר לסריקה ולוחצים על Select.
לוחצים על Continue.
אופציונלי: מייצאים את תוצאות הסריקה לטבלה רגילה ב-BigQuery. בקטע Export scan results to BigQuery table (ייצוא תוצאות הסריקה לטבלה ב-BigQuery), מבצעים את הפעולות הבאות:
בשדה Select BigQuery dataset, לוחצים על Browse ובוחרים מערך נתונים ב-BigQuery לאחסון תוצאות הסריקה של פרופיל הנתונים.
בשדה BigQuery table, מציינים את הטבלה שבה רוצים לאחסן את תוצאות הסריקה של פרופיל הנתונים. אם משתמשים בטבלה קיימת, צריך לוודא שהיא תואמת לסכימת טבלת הייצוא. אם הטבלה שצוינה לא קיימת, Knowledge Catalog יוצר אותה בשבילכם.
ב-Knowledge Catalog נעשה שימוש באותה טבלת תוצאות לכל הסריקות של פרופיל הנתונים.
אופציונלי: מוסיפים תוויות. תוויות הן צמדי מפתח/ערך שמאפשרים לקבץ אובייקטים קשורים או לקבץ אותם עם משאבים אחרים של Google Cloud .
כדי ליצור את הסריקות, לוחצים על יצירה.
אם מגדירים את התזמון להפעלה לפי דרישה, אפשר גם להריץ את הסריקות עכשיו על ידי לחיצה על הפעלת הסריקה.
הפעלת סריקת פרופיל נתונים
המסוף
-
במסוף Google Cloud , עוברים לדף Knowledge Catalog (קטלוג הידע) Data profiling & quality (פרופיל ואיכות נתונים).
- לוחצים על סריקת פרופיל הנתונים כדי להריץ אותה.
- לוחצים על הפעלה מיידית.
gcloud
כדי להריץ סריקה של פרופיל נתונים, משתמשים בפקודה gcloud dataplex datascans run:
gcloud dataplex datascans run DATASCAN \ --location=LOCATION
מחליפים את המשתנים הבאים:
-
DATASCAN: השם של סריקת פרופיל הנתונים. -
LOCATION: Google Cloud האזור שבו נוצרה סריקת פרופיל הנתונים.
C#
C#
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי C#ההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog C# API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
המשך
Go
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Goההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Go API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Java API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Pythonההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Python API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Rubyההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Ruby API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי להריץ סריקה של פרופיל נתונים, משתמשים ב-dataScans.run method.
ביטול משימת סריקה של פרופיל נתונים
אם עבודת סריקה של פרופיל נתונים פועלת יותר זמן מהצפוי או שהיא הופעלה עם הגדרה שגויה, אפשר לבטל אותה. זהו ניסיון מיטבי. אם העבודה כבר במצב סופי (כמו SUCCEEDED או FAILED), בקשת הביטול מתעלמת.
תפקידים והרשאות נדרשים
כדי לקבל את ההרשאות שנדרשות לביטול של עבודת סריקה של פרופיל נתונים, צריך לבקש מהאדמין להקצות לכם ב-IAM את התפקיד עורך Dataplex (roles/dataplex.editor) או אדמין של סריקת נתונים ב-Dataplex (roles/dataplex.dataScanAdmin) בפרויקט.
ביטול משימה
אפשר לבטל עבודת סריקה של פרופיל נתונים שנמצאת בתהליך או בהמתנה באמצעות ה-API בארכיטקטורת REST.
המסוף
במסוף Google Cloud , עוברים לדף Data profiling & quality.
לוחצים על השם של הסריקה של פרופיל הנתונים שמכילה את העבודה שרוצים לבטל.
בכרטיסייה היסטוריית משימות, מאתרים את המשימה עם הסטטוס פועל או בהמתנה.
לוחצים על הלחצן Cancel (ביטול) שמשויך לעבודה.
REST
משתמשים בשיטה projects.locations.dataScans.jobs.cancel.
POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID:cancel
מחליפים את מה שכתוב בשדות הבאים:
-
PROJECT_ID: מזהה הפרויקט. -
LOCATION: האזור שבו נמצאת סריקת הנתונים. -
DATASCAN_ID: המזהה של סריקת הנתונים. -
JOB_ID: המזהה של המשימה שרוצים לבטל.
הצגת תוצאות של סריקת פרופיל נתונים
המסוף
במסוף Google Cloud , עוברים לדף Knowledge Catalog (קטלוג הידע) Data profiling & quality (פרופיל ואיכות נתונים).
לוחצים על השם של סריקת פרופיל נתונים.
בקטע סקירה כללית מוצג מידע על המשימות האחרונות, כולל מתי הסריקה בוצעה, מספר הרשומות בטבלה שנסרקו וסטטוס המשימה.
בקטע Data profile scan configuration מוצגים פרטים על הסריקה.
כדי לראות מידע מפורט על משימה, כמו העמודות של הטבלה שנסרקה, נתונים סטטיסטיים על העמודות שנמצאו בסריקה ויומני המשימות, לוחצים על הכרטיסייה היסטוריית המשימות. לאחר מכן לוחצים על מזהה משרה.
gcloud
כדי להציג את התוצאות של עבודת סריקה של פרופיל נתונים, משתמשים בפקודה gcloud dataplex datascans jobs describe:
gcloud dataplex datascans jobs describe JOB \ --location=LOCATION \ --datascan=DATASCAN \ --view=FULL
מחליפים את המשתנים הבאים:
-
JOB: מזהה העבודה של עבודת הסריקה של פרופיל הנתונים. -
LOCATION: Google Cloud האזור שבו נוצרה סריקת פרופיל הנתונים. -
DATASCAN: השם של סריקת פרופיל הנתונים שאליה שייך הג'וב. -
--view=FULL: כדי לראות את תוצאת עבודת הסריקה, מצייניםFULL.
C#
C#
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי C#ההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog C# API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
המשך
Go
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Goההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Go API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Java API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Pythonההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Python API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Rubyההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Ruby API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי לראות את התוצאות של סריקת פרופיל נתונים, משתמשים בשיטה dataScans.get.
הצגת התוצאות שפורסמו
אם תוצאות הסריקה של פרופיל הנתונים מתפרסמות בדפי BigQuery ו-Knowledge Catalog במסוף Google Cloud , תוכלו לראות את תוצאות הסריקה האחרונות בכרטיסייה Data profile של טבלת המקור.
נכנסים לדף Search בקטלוג הידע במסוף Google Cloud .
מחפשים את הטבלה ובוחרים אותה.
לוחצים על הכרטיסייה פרופיל נתונים.
מוצגות התוצאות האחרונות שפורסמו.
צפייה במשימת הסריקה האחרונה של פרופיל הנתונים
המסוף
במסוף Google Cloud , עוברים לדף Knowledge Catalog (קטלוג הידע) Data profiling & quality (פרופיל ואיכות נתונים).
לוחצים על השם של סריקת פרופיל נתונים.
לוחצים על הכרטיסייה תוצאות אחרונות של המשימה.
בכרטיסייה תוצאות העבודה האחרונה, אם יש לפחות ריצה אחת שהושלמה בהצלחה, מוצג מידע על העבודה האחרונה. היא מפרטת את העמודות של הטבלה שנסרקה ואת הנתונים הסטטיסטיים לגבי העמודות שנמצאו בסריקה.
gcloud
כדי לראות את הסריקה האחרונה של פרופיל הנתונים שהסתיימה בהצלחה, משתמשים בפקודה gcloud dataplex datascans describe:
gcloud dataplex datascans describe DATASCAN \ --location=LOCATION \ --view=FULL
מחליפים את המשתנים הבאים:
-
DATASCAN: השם של סריקת פרופיל הנתונים שרוצים לראות את העבודה האחרונה שלה. -
LOCATION: האזור שבו נוצרה סריקת פרופיל הנתונים. Google Cloud -
--view=FULL: כדי לראות את תוצאת עבודת הסריקה, מצייניםFULL.
REST
כדי לראות את עבודת הסריקה האחרונה, משתמשים בשיטה dataScans.get.
צפייה בתוצאות סריקה היסטוריות
ב-Knowledge Catalog נשמרת היסטוריית הסריקות של פרופיל הנתונים של 300 המשימות האחרונות או של השנה האחרונה, לפי המוקדם מביניהם.
המסוף
במסוף Google Cloud , עוברים לדף Knowledge Catalog (קטלוג הידע) Data profiling & quality (פרופיל ואיכות נתונים).
לוחצים על השם של סריקת פרופיל נתונים.
לוחצים על הכרטיסייה היסטוריית המשרות.
בכרטיסייה היסטוריית המשימות מופיע מידע על משימות קודמות, כמו מספר הרשומות שנסרקו בכל משימה, סטטוס המשימה והשעה שבה המשימה הופעלה.
כדי לראות מידע מפורט על משימה, לוחצים על אחת מהמשימות בעמודה מזהה משימה.
gcloud
כדי לראות את העבודות ההיסטוריות של סריקת פרופיל הנתונים, משתמשים בפקודה gcloud dataplex datascans jobs list:
gcloud dataplex datascans jobs list \ --location=LOCATION \ --datascan=DATASCAN
מחליפים את המשתנים הבאים:
-
LOCATION: האזור שבו נוצרה סריקת פרופיל הנתונים. Google Cloud DATASCAN: השם של סריקת פרופיל הנתונים שעבורה רוצים להציג את המשימות.
C#
C#
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי C#ההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog C# API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
המשך
Go
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Goההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Go API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Java API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Pythonההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Python API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Rubyההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Ruby API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי לראות משימות היסטוריות של סריקת פרופיל נתונים, משתמשים בשיטה dataScans.jobs.list.
הענקת גישה לתוצאות של סריקת פרופיל נתונים
כדי לאפשר למשתמשים בארגון לראות את תוצאות הסריקה:
במסוף Google Cloud , עוברים לדף Knowledge Catalog (קטלוג הידע) Data profiling & quality (פרופיל ואיכות נתונים).
לוחצים על סריקת פרופיל הנתונים שרוצים לשתף את התוצאות שלה.
לוחצים על הכרטיסייה Permissions.
צריך לבצע את הפעולות הבאות:
- כדי להעניק גישה לחשבון משתמש, לוחצים על Grant access. מעניקים לחשבון המשתמש המשויך את התפקיד Dataplex DataScan DataViewer.
- כדי להסיר גישה מחשבון משתמש, בוחרים את חשבון המשתמש שרוצים להסיר ממנו את התפקיד Dataplex DataScan DataViewer. לוחצים על הסרת הגישה ומאשרים כשמוצגת בקשה.
ניהול סריקות של פרופיל נתונים לטבלה ספציפית
השלבים במאמר הזה מראים איך לנהל סריקות של פרופילי נתונים בכל הפרויקט באמצעות הדף Data profiling & quality (פרופילים ואיכות של נתונים) ב-Knowledge Catalog (קטלוג הידע) במסוף Google Cloud .
אתם יכולים גם ליצור ולנהל סריקות של פרופיל נתונים כשאתם עובדים עם טבלה ספציפית. במסוף Google Cloud , בדף Knowledge Catalog של הטבלה, משתמשים בכרטיסייה פרופיל נתונים. צריך לבצע את הפעולות הבאות:
נכנסים לדף Search של Knowledge Catalog במסוף Google Cloud .
מחפשים את הטבלה ובוחרים אותה.
לוחצים על הכרטיסייה פרופיל נתונים.
בהתאם לשאלה אם הטבלה כוללת סריקה של פרופיל נתונים שהתוצאות שלה פורסמו, אפשר לעבוד עם הסריקות של פרופיל הנתונים של הטבלה בדרכים הבאות:
תוצאות הסריקה של פרופיל הנתונים מתפרסמות: התוצאות האחרונות שפורסמו מוצגות בדף.
כדי לנהל את הסריקות של פרופיל הנתונים בטבלה הזו, לוחצים על סריקה של פרופיל הנתונים ובוחרים באחת מהאפשרויות הבאות:
יצירת סריקה חדשה: יצירת סריקה חדשה של פרופיל נתונים. מידע נוסף זמין בקטע יצירת סריקה של פרופיל נתונים במסמך הזה. כשיוצרים סריקה מדף הפרטים של טבלה, הטבלה נבחרת מראש.
הפעלה מיידית: הפעלת הסריקה.
עריכת הגדרות הסריקה: עריכת ההגדרות, כולל השם לתצוגה, המסננים, גודל הדגימה והתזמון.
ניהול הרשאות הסריקה: שליטה בגישה לתוצאות הסריקה. מידע נוסף זמין בקטע הענקת גישה לתוצאות הסריקה של פרופיל הנתונים במסמך הזה.
הצגת תוצאות היסטוריות: הצגת מידע מפורט על משימות קודמות של סריקת פרופיל נתונים. מידע נוסף זמין בקטעים הצגת תוצאות סריקה של פרופיל נתונים והצגת תוצאות סריקה היסטוריות במסמך הזה.
הצגת כל הסריקות: הצגת רשימה של סריקות פרופיל נתונים שרלוונטיות לטבלה הזו.
תוצאות הסריקה של פרופיל הנתונים לא מתפרסמות: לוחצים על התפריט לצד פרופיל נתונים מהיר, ואז בוחרים מבין האפשרויות הבאות:
התאמה אישית של פרופיל הנתונים: יצירת סריקה חדשה של פרופיל הנתונים. מידע נוסף זמין בקטע יצירת סריקה של פרופיל נתונים במסמך הזה. כשיוצרים סריקה מדף הפרטים של טבלה, הטבלה נבחרת מראש.
הצגת פרופילים קודמים: הצגת רשימה של סריקות פרופיל נתונים שרלוונטיות לטבלה הזו.
עדכון סריקה של פרופיל נתונים
המסוף
במסוף Google Cloud , עוברים לדף Knowledge Catalog (קטלוג הידע) Data profiling & quality (פרופיל ואיכות נתונים).
לוחצים על השם של סריקת פרופיל נתונים.
לוחצים על עריכה ועורכים את הערכים.
לוחצים על Save.
gcloud
כדי לעדכן סריקה של פרופיל נתונים, משתמשים בפקודה gcloud dataplex datascans update data-profile:
gcloud dataplex datascans update data-profile DATASCAN \ --location=LOCATION \ --description=DESCRIPTION
מחליפים את המשתנים הבאים:
-
DATASCAN: השם של סריקת פרופיל הנתונים שרוצים לעדכן. -
LOCATION: האזור שבו נוצרה סריקת פרופיל הנתונים. Google Cloud -
DESCRIPTION: התיאור החדש של הסריקה של פרופיל הנתונים.
C#
C#
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי C#ההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog C# API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
המשך
Go
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Goההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Go API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Java API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
Python
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Pythonההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Python API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Ruby
Ruby
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Rubyההוראות להגדרה במאמר מדריך למתחילים לעבודה עם Knowledge Catalog באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של Knowledge Catalog Ruby API.
כדי לבצע אימות לקטלוג הידע, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי לערוך סריקה של פרופיל נתונים, משתמשים ב-dataScans.patch method.
מחיקת סריקה של פרופיל נתונים
המסוף
במסוף Google Cloud , עוברים לדף Knowledge Catalog (קטלוג הידע) Data profiling & quality (פרופיל ואיכות נתונים).
לוחצים על הסריקה שרוצים למחוק.
לוחצים על מחיקה ומאשרים כשמוצגת בקשה.
gcloud
כדי למחוק סריקה של פרופיל נתונים, משתמשים בפקודה gcloud dataplex datascans delete:
gcloud dataplex datascans delete DATASCAN \ --location=LOCATION --async
מחליפים את המשתנים הבאים:
-
DATASCAN: השם של הסריקה של פרופיל הנתונים שרוצים למחוק. -
LOCATION: האזור שבו נוצרה סריקת פרופיל הנתונים. Google Cloud
REST
כדי למחוק סריקה של פרופיל נתונים, משתמשים בשיטה dataScans.delete.
המאמרים הבאים
- כך בוחנים את הנתונים באמצעות יצירת תובנות מהנתונים.
- מידע נוסף על פרופילים של נתונים
- מידע נוסף על איכות נתונים אוטומטית
- איך משתמשים באיכות נתונים אוטומטית