כשעובדים עם נתונים, בטח שואלים שאלות כמו "מה המשמעות של שם העמודה הזו?", "מי הבעלים של מערך הנתונים הפגום הזה?" או "האם הטבלה הזו אושרה לשימוש?" תגי מטא-נתונים מנסים לענות על השאלות האלה, אבל הם הופכים במהירות ללא עדכניים או ללא עקביים. Knowledge Catalog (לשעבר Dataplex Universal Catalog) פותר את הבעיה הזו בכך שהוא מאפשר לכם לצרף מטא-נתונים מובְנים והגדרות עסקיות ברורות ישירות לנכסי נתונים. מתן הקשר ברור לנתונים מבסס את סוכני ה-AI ויוצר בסיס של אמון לכל משתמש שמקיים אינטראקציה עם הנתונים.
במדריך הזה מוסבר איך ליצור הקשר של נתונים ב-Knowledge Catalog. המדריך הזה מיועד למשתמשים כמו מנהלי נתונים ואנליסטים עסקיים. הוא כולל הוראות מבוססות-ממשק משתמש ליצירת מונחים עסקיים סטנדרטיים והקשר שלהם לפני שמבצעים אוטומציה של תהליכי העבודה האלה. ההדרכה מסבירה את הקשרים בין מושגים מרכזיים ב-Knowledge Catalog. בסיום הקורס תדעו איך להפוך את הנתונים שלכם לגלויים ומהימנים.
מטרות
במדריך הזה תלמדו איך:
- יוצרים מקור יחיד של מידע מהימן למונחים עסקיים באמצעות מילון המונחים הארגוני.
- אפשר להשתמש בסוגי היבטים כדי לארגן את המטא-נתונים.
- מצרפים מטא-נתונים לנכסי נתונים באמצעות היבטים.
- אפשר להשתמש בחיפוש ב-Knowledge Catalog כדי למצוא בדיוק את מה שצריך באמצעות המטא-נתונים המובְנים החדשים האלה.
לפני שמתחילים
לפני שמתחילים, צריך לבצע את הפעולות הבאות:
- בוחרים Google Cloud פרויקט למדריך הזה.
- מוודאים שהחיוב מופעל בפרויקט.
מגדירים את הסביבה
במדריך הזה משתמשים ב-Cloud Shell, סביבת שורת פקודה שפועלת בענן.
במסוף, לוחצים על Activate Cloud Shell (הפעלת Cloud Shell) בסרגל הכלים שבפינה הימנית העליונה. Google Cloud יחלפו כמה רגעים עד שההקצאה והחיבור לסביבת העבודה יושלמו.
ב-Cloud Shell, מגדירים את המשתנים
PROJECT_IDו-LOCATIONכך שכל הפקודות העתידיות יופנו לפרויקט הספציפי Google Cloud שלכם.export PROJECT_ID=$(gcloud config get-value project) gcloud config set project $PROJECT_ID export LOCATION="us-central1"מפעילים את השירותים הנדרשים. Google Cloud
gcloud services enable \ dataplex.googleapis.com \ bigquery.googleapis.com \ datacatalog.googleapis.com
יצירת מערך נתונים ב-BigQuery והכנת נתונים לדוגמה
משתמשים בקוד הבא כדי ליצור מערך נתונים ב-BigQuery ולטעון כמה עסקאות לדוגמה בפורמט CSV לטבלה. אחרי שיוצרים את הטבלה, Knowledge Catalog מאתר אותה ויוצר עבורה רשומה בקטלוג.
אפשר לחשוב על רשומה כייצוג של נכס נתונים בקטלוג הידע. זה כמו רשומה בקטלוג שאפשר לצרף לה מטא-נתונים. במקום להוסיף הקשר לטבלה ב-BigQuery ישירות (או להעשיר אותה), מוסיפים אותו לרשומה שלה ב-Knowledge Catalog.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Sample retail data for foundational data context tutorial" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into a BigQuery table
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
מריצים שאילתת SELECT כדי לוודא שההגדרה תקינה:
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
פלט לדוגמה:
+----------------+------------------+-------+------------------+
| transaction_id | user_email | gmv | transaction_date |
+----------------+------------------+-------+------------------+
| 1001 | test@example.com | 150.5 | 2025-08-28 |
| 1002 | user@example.com | 75.0 | 2025-08-28 |
+----------------+------------------+-------+------------------+
הגדרת מונחים משותפים באמצעות מילון המונחים הארגוני
כדי להבין את ההקשר של הנתונים, צריך הגדרות ברורות. לדוגמה, מפתח לא צריך לנחש אם עמודה בשם gmv מייצגת את ערך המסחר ברוטו או אם היא כוללת מיסים והחזרות. מילון המונחים הארגוני יוצר מקור מידע אמין יחיד להגדרות האלה בכל הארגון. כשחברי צוות או סוכני AI מנתחים את הנתונים שלכם, הם מקבלים את ההקשר העסקי המדויק הזה. הגדרות משותפות מאפשרות ליישר קו בין מדדים בצוותים שונים, כמו צוותי הכספים, המכירות והתפעול, ועוזרות לסוכני AI להימנע מהזיות.
כדי ליצור מילון מונחים ולהגדיר את המונח הראשון:
נכנסים לדף Glossaries ב-Knowledge Catalog במסוף Google Cloud .
לוחצים על Create Business Glossary (יצירת מילון מונחים עסקי).
מזינים את הפרטים הבאים:
- שם לתצוגה:
Retail Business Glossary - מיקום:
us-central1 (Iowa)
- שם לתצוגה:
לוחצים על יצירה.
לוחצים על יצירת קטגוריה.
נותנים שם לקטגוריה
Sales Metricsולוחצים על יצירה.בוחרים בקטגוריה מדדי מכירות ולוחצים על הוספת מונח.
נותנים שם למונח
Gross Merchandise Valueולוחצים על יצירה.לוחצים על המונח שווי כולל של סחורה שנמכרה כדי לפתוח את דף הפרטים שלו.
לצד סקירה כללית, לוחצים על הוספה. מזינים את הפרטים הבאים:
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.לוחצים על Save.
יצרתם עכשיו מונח במילון המונחים שאפשר לקשר לרשומות נתונים בכל הארגון.
הגדרת מטא-נתונים טכניים באמצעות סוג היבט
כשמשתמשים בתגי מטא-נתונים לא מובנים, לרוב נוצרים רשומות לא עקביות בקטלוג. לדוגמה, טבלה אחת יכולה להיות מתויגת בתג owner:bob וטבלה אחרת בתג steward:alice@example.com. כדי לשמור על סדר במטא-נתונים בהיקף גדול, צריך סכימה עקבית.
כאן נכנסים לתמונה סוגי ההיבטים. סוג היבט הוא תוכנית אב למטא-נתונים שמאפשרת להגדיר כללים ברורים ושדות חובה. אם תדרשו שדות סטנדרטיים כמו כתובות אימייל תקינות עבור מנהלי נתונים, סקריפטים במורד הזרם יוכלו לאמת ולהגן על המטא-נתונים שלכם באופן אוטומטי.
כדי ליצור סוג היבט:
במסוף Google Cloud , עוברים לכרטיסייה Aspect types בקטלוג הידע בדף Metadata types.
בכרטיסייה התאמה אישית, לוחצים על יצירה.
מזינים את הפרטים הבאים:
- שם לתצוגה:
Data Asset Context - מיקום:
us-central1 (Iowa)
- שם לתצוגה:
בקטע תבנית, לוחצים על הוספת שדה כדי ליצור את שלושת השדות הבאים:
Field 1:
- שם לתצוגה:
Data Steward - Type (סוג):
Text - חובה: מסמנים את תיבת הסימון.
- סוג הטקסט:
Plain text
- שם לתצוגה:
שדה 2 (לוחצים על הוספת שדה):
- שם לתצוגה:
Data Sensitivity - Type (סוג):
Enum - חובה: לא חובה.
- ערכים: מוסיפים את
Public,Internalו-Confidential
- שם לתצוגה:
שדה 3 (לוחצים על הוספת שדה):
- שם לתצוגה:
Last Review Date - חובה: לא חובה.
- Type (סוג):
Date and time
- שם לתצוגה:
לוחצים על Save.
עכשיו יש לכם סוג היבט לשדות מטא-נתונים שקשורים לניהול נתונים, כמו מנהל נתונים, רמת רגישות ותאריך בדיקה. בקטע הבא מוסבר איך להחיל את הסכימה הזו על רשומה בטבלה על ידי צירוף היבט עם ערכים ספציפיים לשדות האלה.
הוספת הקשר עסקי וטכני לרשומה
שמות העמודות הם לרוב מקוצרים או לא חד-משמעיים. קישור עמודה למונח במילון המונחים הארגוני מספק הגדרה ברורה ועקבית. בשלב הזה, מעשירים את הרשומה בטבלה retail_data.transactions על ידי קישור המונח Gross Merchandise Value לעמודה בשם gmv וצירוף היבט לרשומה בטבלה באמצעות סוג ההיבט.
קישור עמודה למונח עסקי
כדי להבהיר מהי העמודה gmv ב-retail_data.transactions, מקשרים אותה למונח Gross Merchandise Value.
במסוף Google Cloud , עוברים לדף Search ב-Knowledge Catalog.
לוחצים על Filters (מסננים) כדי לפתוח את החלונית Filters (מסננים).
בקטע היקף, בוחרים באפשרות הפרויקט הנוכחי.
מחפשים את
retail_data.transactionsולוחצים על טבלת העסקאות שהוחזרו.לוחצים על הכרטיסייה סכימה.
מסמנים את תיבת הסימון שליד העמודה
gmvולוחצים על הוספת מונח עסקי.בוחרים באפשרות
Gross Merchandise Value.
צירוף היבט לרשומה בטבלה
בנוסף לקישור מונחים עסקיים לעמודות, אפשר לצרף היבט לרשומה בטבלה כדי לתעד מטא-נתונים ברמת הטבלה, כמו בעלות על נתונים ורגישות נתונים.
אספקט הוא מופע של סוג אספקט, עם ערכים ספציפיים לשדות מטא-נתונים. כשמצרפים היבט לרשומה, Knowledge Catalog בודק את המידע שסיפקתם מול הסכימה שמוגדרת בסוג ההיבט כדי לוודא שיש עקביות.
כדי להגדיר בעלות ורגישות לטבלה retail_data.transactions, צריך לצרף את ההיבט Data Asset Context:
- בכרטיסייה פרטים של דף הכניסה
retail_data.transactions, לוחצים על הוספה לצד מאפיינים אופציונליים. - בוחרים באפשרות
Data Asset Contextמהרשימה. מזינים ערכים בשדות:
- אחראי נתונים:
finance-team@example.com - רגישות הנתונים: בוחרים באפשרות פנימי.
- תאריך הבדיקה האחרונה: בוחרים את התאריך הנוכחי.
- אחראי נתונים:
לוחצים על Save.
העשרתם את נתוני העסקאות הקמעונאיות לדוגמה, וכך יצרתם בסיס מוצק של הקשר נתונים ב-Knowledge Catalog.
חיפוש ערכים באמצעות מטא-נתונים מועשרים
עכשיו אפשר להשתמש בחיפוש בקטלוג הידע כדי למצוא רשומות על סמך ההקשר העסקי שהגדרתם. לדוגמה, אפשר למצוא את כל הנכסים עם רמת רגישות ספציפית, או לחפש מונח במילון המונחים כדי לגלות את הטבלאות הבסיסיות.
במסוף Google Cloud , עוברים לדף Search ב-Knowledge Catalog.
לוחצים על Filters (מסננים) כדי לפתוח את החלונית Filters (מסננים).
בקטע היקף, בוחרים באפשרות הפרויקט הנוכחי.
בסרגל החיפוש, מזינים
Find tables where the Data Asset Context aspect has Internal sensitivity.הטבלה
retail_data.transactionsאמורה להופיע ברשימת התוצאות.מנקים את סרגל החיפוש ומזינים
Find tables with the Gross Merchandise Value term attached.שוב תופיע הטבלה
retail_data.transactionsבתוצאות, כי העמודהgmvשלה מקושרת ישירות למונח העסקי הזה.
כשמחברים סוכן AI ל-Knowledge Catalog, הוא מקבל בירושה את המטא-נתונים המועשרים האלה באופן אוטומטי. לדוגמה, כשמבקשים מסוכן AI לאחזר מדדי מכירות פנימיים, הוא קורא את ההיבט 'רגישות הנתונים' (שהגדרתם כ'פנימיים') ואת מונח המילון 'ערך ברוטו של סחורה' שמקושר אליו. ההקשר המשותף הזה עוזר לסוכן לאמת את מקורות הנתונים שלו, לפעול בהתאם למדיניות הגישה ולהימנע מהזיות.
הסרת המשאבים
כדי להימנע מחיובים, מוחקים את המשאבים שיצרתם במדריך הזה.
מחיקת מערך הנתונים לדוגמה
כדי למחוק את מערך הנתונים לדוגמה ב-BigQuery ואת כל הטבלאות שלו, משתמשים בפקודה הבאה. אי אפשר לבטל את הפעולה הזו.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
מחיקת ארטיפקטים מ-Knowledge Catalog
במסוף Google Cloud , עוברים לכרטיסייה Aspect types בקטלוג הידע בדף Metadata types.
בוחרים את סוג ההיבט
Data Asset Contextולוחצים על מחיקה.נכנסים לדף Glossaries ב-Knowledge Catalog במסוף Google Cloud .
בוחרים את המונח
Gross Merchandise Valueולוחצים על מחיקה.בוחרים את הקטגוריה
Sales Metricsולוחצים על מחיקה.בוחרים את
Retail Business Glossaryולוחצים על מחיקה.
המאמרים הבאים
מידע נוסף על אוצרות קטלוגים ועל בניית סוכנים באמצעות Knowledge Catalog זמין במקורות המידע הבאים:
- ניהול היבטים והוספת מטא-נתונים: במאמר ניהול היבטים והוספת מטא-נתונים מוסבר איך להגדיר סכימות בהתאמה אישית ולצרף מטא-נתונים מובְנים.
- ניהול מילוני מונחים ארגוניים: במאמר ניהול מילון מונחים ארגוני מוסבר איך ליצור אוצר מילים סטנדרטי לארגון.
- שליטה באמצעות Terraform: כאן תוכלו ללמוד איך להקצות מילונים וסוגים של היבטים בהתאמה אישית באמצעות Terraform.
- עבודה עם מונחים במילון מונחים בהיקף נרחב: אפשר לבצע העשרה של מטא-נתונים בכמות גדולה באמצעות קובצי JSON במאמר מידע על ייבוא וייצוא של מילוני מונחים וקישורים לערכים.
- העשרת מטא-נתונים באמצעות סוכנים: אפשר לבנות סוכן AI כדי לחלץ הקשר ולהעשיר את נכסי הנתונים שלכם באמצעות בניית סוכן להעשרת המטא-נתונים.
- תרחישים נוספים לדוגמה: בתרחישים לדוגמה תוכלו למצוא עוד תהליכי עבודה ותרחישים מעשיים.