בטח שאלתם שאלות כמו "What does this column name mean?" "מי הבעלים של מערך הנתונים הפגום הזה?" או "האם הטבלה הזו אושרה לשימוש?" חלק מקטלוגי הנתונים משתמשים בתגים לא מובנים כדי להוסיף את המידע הזה, אבל התגים מתיישנים או הופכים ללא עקביים במהירות. ב-Knowledge Catalog (לשעבר Dataplex Universal Catalog) אפשר לצרף מטא-נתונים מובְנים שמבוססים על סכימה והגדרות עסקיות ברורות ישירות לנכסי הנתונים, וכך להימנע מהבעיה הזו. הגישה הזו עוזרת לכם לבנות ממשל פרוגרמטי בהיקפים גדולים.
במדריך הזה נסביר איך להתחיל להשתמש במשילות מידע (data governance) ב-Knowledge Catalog. המדריך הזה מיועד למהנדסי נתונים, לאדמינים של מסדי נתונים ולארכיטקטים של נתונים. הוא כולל הסברים על שלבים בממשק המשתמש שצריך לבצע באופן ידני כדי לעזור לכם לבנות מודל מנטלי חזק לפני שתבצעו אוטומציה של תהליכי העבודה האלה. הוא מבהיר את הקשרים בין מושגים מרכזיים ב-Knowledge Catalog. בסיום הקורס תדעו איך להפוך את הנתונים שלכם לנתונים שאפשר למצוא ולסמוך עליהם.
מטרות
במדריך הזה תלמדו איך:
- כדי ליצור מקור אמין אחד למונחים העסקיים שלכם, אתם יכולים להשתמש במילון המונחים הארגוני.
- אפשר לבנות ולארגן את המטא-נתונים באמצעות סוגי היבטים.
- אפשר לצרף מטא-נתונים לנכסים באמצעות היבטים.
- אפשר להשתמש בחיפוש ב-Knowledge Catalog כדי למצוא בדיוק את מה שצריך באמצעות המטא-נתונים המובְנים החדשים האלה.
לפני שמתחילים
לפני שמתחילים, צריך לבצע את הפעולות הבאות:
- בוחרים Google Cloud פרויקט למדריך הזה.
- מוודאים שהחיוב מופעל בפרויקט.
מגדירים את הסביבה
במדריך הזה משתמשים ב-Cloud Shell, סביבת שורת פקודה שפועלת בענן.
במסוף, לוחצים על Activate Cloud Shell (הפעלת Cloud Shell) בסרגל הכלים שבפינה הימנית העליונה. Google Cloud יחלפו כמה רגעים עד שההקצאה והחיבור לסביבת העבודה יושלמו.
ב-Cloud Shell, מגדירים את המשתנים
PROJECT_IDו-LOCATIONכך שכל הפקודות העתידיות יופנו לפרויקט הספציפי Google Cloud שלכם.export PROJECT_ID=$(gcloud config get-value project) gcloud config set project $PROJECT_ID export LOCATION="us-central1"מפעילים את השירותים הנדרשים. Google Cloud
gcloud services enable \ dataplex.googleapis.com \ bigquery.googleapis.com \ datacatalog.googleapis.com
יצירת מערך נתונים ב-BigQuery והכנת נתונים לדוגמה
משתמשים בקוד הבא כדי ליצור מערך נתונים ב-BigQuery ולטעון כמה עסקאות לדוגמה בפורמט CSV לטבלה. אחרי שיוצרים את הטבלה, המערכת של Knowledge Catalog מאתרת אותה באופן אוטומטי ויוצרת עבורה רשומה בקטלוג.
אפשר לחשוב על רשומה כייצוג של נכס נתונים בקטלוג הידע. הוא דומה לרשומה בקטלוג שאפשר לצרף לה מטא-נתונים של ניהול גישה. במקום לנהל את הטבלה ב-BigQuery ישירות, מנהלים את הרשומה שלה ב-Knowledge Catalog.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Retail data for governance codelab" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into a BigQuery table
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
מריצים שאילתת SELECT כדי לוודא שההגדרה תקינה:
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
פלט לדוגמה:
+----------------+------------------+-------+------------------+
| transaction_id | user_email | gmv | transaction_date |
+----------------+------------------+-------+------------------+
| 1001 | test@example.com | 150.5 | 2025-08-28 |
| 1002 | user@example.com | 75.0 | 2025-08-28 |
+----------------+------------------+-------+------------------+
יצירת מונחים משותפים באמצעות מילון המונחים הארגוני
ניהול תקין מסתמך על הגדרות ברורות. לדוגמה, מפתח לא צריך לנחש אם עמודה בשם gmv מייצגת את ערך המסחר ברוטו או אם היא כוללת מיסים או החזרות. מילון המונחים הארגוני פותר את הבעיה הזו על ידי יצירת מקור אמת יחיד שמפריד בין הגדרות עסקיות לבין פרטים טכניים. כך מוודאים שמונחים כמו ערך מסחר ברוטו (GMV) יהיו בעלי משמעות זהה לכולם, מצוות המכירות ועד צוות הכספים.
כדי ליצור מילון מונחים ולהגדיר את המונח הראשון:
נכנסים לדף Glossaries ב-Knowledge Catalog במסוף Google Cloud .
לוחצים על Create Business Glossary (יצירת מילון מונחים עסקי).
מזינים את הפרטים הבאים:
- שם לתצוגה:
Retail Business Glossary - מיקום:
us-central1 (Iowa)
- שם לתצוגה:
לוחצים על יצירה.
לוחצים על יצירת קטגוריה.
נותנים שם לקטגוריה
Sales Metricsולוחצים על יצירה.בוחרים בקטגוריה מדדי מכירות ולוחצים על הוספת מונח.
נותנים שם למונח
Gross Merchandise Valueולוחצים על יצירה.לוחצים על המונח שווי כולל של סחורה שנמכרה כדי לפתוח את דף הפרטים שלו.
לצד סקירה כללית, לוחצים על הוספה. מזינים את הפרטים הבאים:
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of ecommerce business growth.לוחצים על Save.
יצרתם עכשיו מונח במילון המונחים שאפשר לקשר לנכסי נתונים בכל הארגון.
הגדרת מטא-נתונים טכניים באמצעות סוג היבט
אם אתם צריכים לעקוב אחרי הבעלים של נכס נתונים מסוים, תגי מפתח/ערך לא יספיקו. לא כדאי לתייג טבלה אחת ב-owner:bob וטבלה אחרת ב-contact:alice@example.com. אתם רוצים סכימה מובנית שבה פרטי הבעלים צריכים להיות בפורמט תקין של כתובת אימייל.
כדי לענות על הצורך הזה, Knowledge Catalog תומך בסוגי היבטים. סוג היבט הוא כמו תוכנית למטא-נתונים, שמאפשרת להגדיר כללים ברורים ושדות חובה. כך תוכלו לוודא שכל המטא-נתונים שתוסיפו בהמשך יישארו מסודרים.
במסוף Google Cloud , עוברים לכרטיסייה Aspect types בקטלוג הידע בדף Metadata types.
בכרטיסייה התאמה אישית, לוחצים על יצירה.
מזינים את הפרטים הבאים:
- שם לתצוגה:
Data Asset Governance - מיקום:
us-central1 (Iowa)
- שם לתצוגה:
בקטע תבנית, לוחצים על הוספת שדה כדי ליצור את שלושת השדות הבאים:
Field 1:
- שם לתצוגה:
Data Steward - Type (סוג):
Text - חובה: מסמנים את תיבת הסימון.
- סוג הטקסט:
Plain text
- שם לתצוגה:
שדה 2 (לוחצים על הוספת שדה):
- שם לתצוגה:
Data Sensitivity - Type (סוג):
Enum - חובה: לא חובה.
- ערכים: מוסיפים את
Public,Internalו-Confidential
- שם לתצוגה:
שדה 3 (לוחצים על הוספת שדה):
- שם לתצוגה:
Last Review Date - חובה: לא חובה.
- Type (סוג):
Date and time
- שם לתצוגה:
לוחצים על Save.
עכשיו יש לכם סוג היבט לשדות מטא-נתונים שקשורים לניהול, כמו מנהל נתונים, רמת רגישות ותאריך בדיקה. בקטע הבא מוסבר איך להחיל את הסכימה הזו על רשומה בטבלה על ידי צירוף היבט עם ערכים ספציפיים לשדות האלה.
הוספת מטא-נתונים של ניהול נתונים לרשומה
שמות העמודות הם לרוב מקוצרים או לא חד-משמעיים. קישור עמודה למונח במילון המונחים הארגוני מספק הגדרה ברורה ועקבית. בשלב הזה, מעשירים את הרשומה בטבלה retail_data.transactions על ידי קישור המונח Gross Merchandise Value לעמודה בשם gmv, ושימוש בסוג ההיבט כדי לצרף היבט לרשומה בטבלה.
קישור עמודה למונח עסקי
כדי להבהיר מהי העמודה gmv ב-retail_data.transactions, מקשרים אותה למונח Gross Merchandise Value.
במסוף Google Cloud , עוברים לדף Search ב-Knowledge Catalog.
לוחצים על Filters (מסננים) כדי לפתוח את החלונית Filters (מסננים).
בקטע היקף, בוחרים באפשרות הפרויקט הנוכחי.
מחפשים את
retail_data.transactionsולוחצים על טבלת העסקאות שהוחזרו.לוחצים על הכרטיסייה סכימה.
מסמנים את תיבת הסימון שליד העמודה
gmvולוחצים על הוספת מונח עסקי.בוחרים באפשרות
Gross Merchandise Value.
צירוף היבט לרשומה בטבלה
בנוסף לקישור מונחים עסקיים לעמודות, אפשר לצרף היבט לרשומה בטבלה כדי לתעד מטא-נתונים של ניהול ברמת הטבלה, כמו בעלות על נתונים ורגישות נתונים.
היבט הוא מופע של סוג היבט, שמכיל ערכים ספציפיים לשדות מטא-נתונים. כשמצרפים היבט לרשומה, Knowledge Catalog בודק את המידע שסיפקתם מול הסכימה שמוגדרת בסוג ההיבט כדי לוודא שיש עקביות.
כדי להגדיר בעלות ורגישות לטבלה retail_data.transactions, צריך לצרף את ההיבט Data Asset Governance:
- בכרטיסייה פרטים של דף הכניסה
retail_data.transactions, לוחצים על הוספה לצד מאפיינים אופציונליים. - בוחרים באפשרות
Data Asset Governanceמהרשימה. מזינים ערכים בשדות:
- אחראי נתונים:
finance-team@example.com - רגישות הנתונים: בוחרים באפשרות פנימי.
- תאריך הבדיקה האחרונה: בוחרים את התאריך הנוכחי.
- אחראי נתונים:
לוחצים על Save.
יצרתם בסיס מוצק למשילות מידע (data governance) ב-Knowledge Catalog.
חיפוש ערכים באמצעות מטא-נתונים מועשרים
העשרת את הרשומה retail_data.transactions על ידי קישור עמודה למונח עסקי וצירוף היבט. עכשיו אפשר להשתמש ב-Knowledge Catalog Search כדי למצוא רשומות שמבוססות על ההקשרים העסקיים האלה. לדוגמה, אפשר למצוא את כל הנכסים עם רמת רגישות ספציפית, או לחפש מונח במילון המונחים כדי לגלות את הטבלאות הבסיסיות.
במסוף Google Cloud , עוברים לדף Search ב-Knowledge Catalog.
לוחצים על Filters (מסננים) כדי לפתוח את החלונית Filters (מסננים).
בקטע היקף, בוחרים באפשרות הפרויקט הנוכחי.
בסרגל החיפוש, מזינים
Find tables where the Data Asset Governance aspect has Internal sensitivity.הטבלה
retail_data.transactionsאמורה להופיע ברשימת התוצאות.מנקים את סרגל החיפוש ומזינים
Find tables with the Gross Merchandise Value term attached.שוב תופיע הטבלה
retail_data.transactionsבתוצאות, כי העמודהgmvשלה מקושרת ישירות למונח העסקי הזה.
הסרת המשאבים
כדי להימנע מחיובים, מוחקים את המשאבים שיצרתם במדריך הזה.
מחיקת מערך הנתונים לדוגמה
כדי למחוק את מערך הנתונים לדוגמה ב-BigQuery ואת כל הטבלאות שלו, משתמשים בפקודה הבאה. אי אפשר לבטל את הפעולה הזו.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
מחיקת ארטיפקטים מ-Knowledge Catalog
במסוף Google Cloud , עוברים לכרטיסייה Aspect types בקטלוג הידע בדף Metadata types.
בוחרים את סוג ההיבט
data_asset_governanceולוחצים על מחיקה.נכנסים לדף Glossaries ב-Knowledge Catalog במסוף Google Cloud .
בוחרים את המונח
Gross Merchandise Valueולוחצים על מחיקה.בוחרים את הקטגוריה
Sales Metricsולוחצים על מחיקה.בוחרים את
Retail Business Glossaryולוחצים על מחיקה.
המאמרים הבאים
- ניהול מילוני מונחים ארגוניים: מידע נוסף על יצירת אוצר מילים סטנדרטי לנתונים שלכם זמין במאמר ניהול מילון מונחים ארגוני.
- הוספת הקשר למטא-נתונים: מידע נוסף על הוספת הקשר משמעותי באמצעות היבטים זמין במאמר ניהול היבטים והוספת הקשר למטא-נתונים.
- אוטומציה של צירוף היבטים: צירוף היבטים למערכי נתונים חדשים באמצעות פונקציות של Cloud Run או Cloud Build.
- ניהול מדיניות כקוד: ניהול סכימות בבקרת גרסאות באמצעות Google Cloud Terraform provider.