יצירת הקשר בסיסי של הנתונים באמצעות Knowledge Catalog

כשעובדים עם נתונים, בטח שואלים שאלות כמו "מה המשמעות של שם העמודה הזו?", "מי הבעלים של מערך הנתונים הפגום הזה?" או "האם הטבלה הזו אושרה לשימוש?" תגי מטא-נתונים מנסים לענות על השאלות האלה, אבל הם הופכים במהירות ללא עדכניים או ללא עקביים. ‫Knowledge Catalog (לשעבר Dataplex Universal Catalog) פותר את הבעיה הזו בכך שהוא מאפשר לכם לצרף מטא-נתונים מובְנים והגדרות עסקיות ברורות ישירות לנכסי נתונים. מתן הקשר ברור לנתונים מבסס את סוכני ה-AI ויוצר בסיס של אמון לכל משתמש שמקיים אינטראקציה עם הנתונים.

במדריך הזה מוסבר איך ליצור הקשר של נתונים ב-Knowledge Catalog. המדריך הזה מיועד למשתמשים כמו מנהלי נתונים ואנליסטים עסקיים. הוא כולל הוראות מבוססות-ממשק משתמש ליצירת מונחים עסקיים סטנדרטיים והקשר שלהם לפני שמבצעים אוטומציה של תהליכי העבודה האלה. ההדרכה מסבירה את הקשרים בין מושגים מרכזיים ב-Knowledge Catalog. בסיום הקורס תדעו איך להפוך את הנתונים שלכם לגלויים ומהימנים.

מטרות

במדריך הזה תלמדו איך:

  • יוצרים מקור יחיד של מידע מהימן למונחים עסקיים באמצעות מילון המונחים הארגוני.
  • אפשר להשתמש בסוגי היבטים כדי לארגן את המטא-נתונים.
  • מצרפים מטא-נתונים לנכסי נתונים באמצעות היבטים.
  • אפשר להשתמש בחיפוש ב-Knowledge Catalog כדי למצוא בדיוק את מה שצריך באמצעות המטא-נתונים המובְנים החדשים האלה.

לפני שמתחילים

לפני שמתחילים, צריך לבצע את הפעולות הבאות:

מגדירים את הסביבה

במדריך הזה משתמשים ב-Cloud Shell, סביבת שורת פקודה שפועלת בענן.

  1. במסוף, לוחצים על Activate Cloud Shell (הפעלת Cloud Shell) בסרגל הכלים שבפינה הימנית העליונה. Google Cloud יחלפו כמה רגעים עד שההקצאה והחיבור לסביבת העבודה יושלמו.

  2. ב-Cloud Shell, מגדירים את המשתנים PROJECT_ID ו-LOCATION כך שכל הפקודות העתידיות יופנו לפרויקט הספציפי Google Cloud שלכם.

    export PROJECT_ID=$(gcloud config get-value project)
    gcloud config set project $PROJECT_ID
    export LOCATION="us-central1"
    
  3. מפעילים את השירותים הנדרשים. Google Cloud

    gcloud services enable \
      dataplex.googleapis.com \
      bigquery.googleapis.com \
      datacatalog.googleapis.com
    

יצירת מערך נתונים ב-BigQuery והכנת נתונים לדוגמה

משתמשים בקוד הבא כדי ליצור מערך נתונים ב-BigQuery ולטעון כמה עסקאות לדוגמה בפורמט CSV לטבלה. אחרי שיוצרים את הטבלה, Knowledge Catalog מאתר אותה ויוצר עבורה רשומה בקטלוג.

אפשר לחשוב על רשומה כייצוג של נכס נתונים בקטלוג הידע. זה כמו רשומה בקטלוג שאפשר לצרף לה מטא-נתונים. במקום להוסיף הקשר לטבלה ב-BigQuery ישירות (או להעשיר אותה), מוסיפים אותו לרשומה שלה ב-Knowledge Catalog.

# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
    --description "Sample retail data for foundational data context tutorial" \
    $PROJECT_ID:retail_data

# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv

# Load the data from the temporary CSV file into a BigQuery table
bq load \
    --source_format=CSV \
    --autodetect \
    retail_data.transactions \
    /tmp/transactions.csv

# (Optional) Clean up the temporary file
rm /tmp/transactions.csv

מריצים שאילתת SELECT כדי לוודא שההגדרה תקינה:

bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"

פלט לדוגמה:

+----------------+------------------+-------+------------------+
| transaction_id |    user_email    |  gmv  | transaction_date |
+----------------+------------------+-------+------------------+
|           1001 | test@example.com | 150.5 |       2025-08-28 |
|           1002 | user@example.com |  75.0 |       2025-08-28 |
+----------------+------------------+-------+------------------+

הגדרת מונחים משותפים באמצעות מילון המונחים הארגוני

כדי להבין את ההקשר של הנתונים, צריך הגדרות ברורות. לדוגמה, מפתח לא צריך לנחש אם עמודה בשם gmv מייצגת את ערך המסחר ברוטו או אם היא כוללת מיסים והחזרות. מילון המונחים הארגוני יוצר מקור מידע אמין יחיד להגדרות האלה בכל הארגון. כשחברי צוות או סוכני AI מנתחים את הנתונים שלכם, הם מקבלים את ההקשר העסקי המדויק הזה. הגדרות משותפות מאפשרות ליישר קו בין מדדים בצוותים שונים, כמו צוותי הכספים, המכירות והתפעול, ועוזרות לסוכני AI להימנע מהזיות.

כדי ליצור מילון מונחים ולהגדיר את המונח הראשון:

  1. נכנסים לדף Glossaries ב-Knowledge Catalog במסוף Google Cloud .

    מעבר אל Glossaries

  2. לוחצים על Create Business Glossary (יצירת מילון מונחים עסקי).

  3. מזינים את הפרטים הבאים:

    • שם לתצוגה: Retail Business Glossary
    • מיקום: us-central1 (Iowa)
  4. לוחצים על יצירה.

  5. לוחצים על יצירת קטגוריה.

  6. נותנים שם לקטגוריה Sales Metrics ולוחצים על יצירה.

  7. בוחרים בקטגוריה מדדי מכירות ולוחצים על הוספת מונח.

  8. נותנים שם למונח Gross Merchandise Value ולוחצים על יצירה.

  9. לוחצים על המונח שווי כולל של סחורה שנמכרה כדי לפתוח את דף הפרטים שלו.

  10. לצד סקירה כללית, לוחצים על הוספה. מזינים את הפרטים הבאים: The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.

  11. לוחצים על Save.

יצרתם עכשיו מונח במילון המונחים שאפשר לקשר לרשומות נתונים בכל הארגון.

הגדרת מטא-נתונים טכניים באמצעות סוג היבט

כשמשתמשים בתגי מטא-נתונים לא מובנים, לרוב נוצרים רשומות לא עקביות בקטלוג. לדוגמה, טבלה אחת יכולה להיות מתויגת בתג owner:bob וטבלה אחרת בתג steward:alice@example.com. כדי לשמור על סדר במטא-נתונים בהיקף גדול, צריך סכימה עקבית.

כאן נכנסים לתמונה סוגי ההיבטים. סוג היבט הוא תוכנית אב למטא-נתונים שמאפשרת להגדיר כללים ברורים ושדות חובה. אם תדרשו שדות סטנדרטיים כמו כתובות אימייל תקינות עבור מנהלי נתונים, סקריפטים במורד הזרם יוכלו לאמת ולהגן על המטא-נתונים שלכם באופן אוטומטי.

כדי ליצור סוג היבט:

  1. במסוף Google Cloud , עוברים לכרטיסייה Aspect types בקטלוג הידע בדף Metadata types.

    כניסה לדף Aspect types

  2. בכרטיסייה התאמה אישית, לוחצים על יצירה.

  3. מזינים את הפרטים הבאים:

    • שם לתצוגה: Data Asset Context
    • מיקום: us-central1 (Iowa)
  4. בקטע תבנית, לוחצים על הוספת שדה כדי ליצור את שלושת השדות הבאים:

    • Field 1:

      • שם לתצוגה: Data Steward
      • Type (סוג): Text
      • חובה: מסמנים את תיבת הסימון.
      • סוג הטקסט: Plain text
    • שדה 2 (לוחצים על הוספת שדה):

      • שם לתצוגה: Data Sensitivity
      • Type (סוג): Enum
      • חובה: לא חובה.
      • ערכים: מוסיפים את Public,‏ Internal ו-Confidential
    • שדה 3 (לוחצים על הוספת שדה):

      • שם לתצוגה: Last Review Date
      • חובה: לא חובה.
      • Type (סוג): Date and time
  5. לוחצים על Save.

עכשיו יש לכם סוג היבט לשדות מטא-נתונים שקשורים לניהול נתונים, כמו מנהל נתונים, רמת רגישות ותאריך בדיקה. בקטע הבא מוסבר איך להחיל את הסכימה הזו על רשומה בטבלה על ידי צירוף היבט עם ערכים ספציפיים לשדות האלה.

הוספת הקשר עסקי וטכני לרשומה

שמות העמודות הם לרוב מקוצרים או לא חד-משמעיים. קישור עמודה למונח במילון המונחים הארגוני מספק הגדרה ברורה ועקבית. בשלב הזה, מעשירים את הרשומה בטבלה retail_data.transactions על ידי קישור המונח Gross Merchandise Value לעמודה בשם gmv וצירוף היבט לרשומה בטבלה באמצעות סוג ההיבט.

כדי להבהיר מהי העמודה gmv ב-retail_data.transactions, מקשרים אותה למונח Gross Merchandise Value.

  1. במסוף Google Cloud , עוברים לדף Search ב-Knowledge Catalog.

    מעבר אל חיפוש

  2. לוחצים על Filters (מסננים) כדי לפתוח את החלונית Filters (מסננים).

  3. בקטע היקף, בוחרים באפשרות הפרויקט הנוכחי.

  4. מחפשים את retail_data.transactions ולוחצים על טבלת העסקאות שהוחזרו.

  5. לוחצים על הכרטיסייה סכימה.

  6. מסמנים את תיבת הסימון שליד העמודה gmv ולוחצים על הוספת מונח עסקי.

  7. בוחרים באפשרות Gross Merchandise Value.

צירוף היבט לרשומה בטבלה

בנוסף לקישור מונחים עסקיים לעמודות, אפשר לצרף היבט לרשומה בטבלה כדי לתעד מטא-נתונים ברמת הטבלה, כמו בעלות על נתונים ורגישות נתונים.

אספקט הוא מופע של סוג אספקט, עם ערכים ספציפיים לשדות מטא-נתונים. כשמצרפים היבט לרשומה, Knowledge Catalog בודק את המידע שסיפקתם מול הסכימה שמוגדרת בסוג ההיבט כדי לוודא שיש עקביות.

כדי להגדיר בעלות ורגישות לטבלה retail_data.transactions, צריך לצרף את ההיבט Data Asset Context:

  1. בכרטיסייה פרטים של דף הכניסה retail_data.transactions, לוחצים על הוספה לצד מאפיינים אופציונליים.
  2. בוחרים באפשרות Data Asset Context מהרשימה.
  3. מזינים ערכים בשדות:

    • אחראי נתונים: finance-team@example.com
    • רגישות הנתונים: בוחרים באפשרות פנימי.
    • תאריך הבדיקה האחרונה: בוחרים את התאריך הנוכחי.
  4. לוחצים על Save.

העשרתם את נתוני העסקאות הקמעונאיות לדוגמה, וכך יצרתם בסיס מוצק של הקשר נתונים ב-Knowledge Catalog.

חיפוש ערכים באמצעות מטא-נתונים מועשרים

עכשיו אפשר להשתמש בחיפוש בקטלוג הידע כדי למצוא רשומות על סמך ההקשר העסקי שהגדרתם. לדוגמה, אפשר למצוא את כל הנכסים עם רמת רגישות ספציפית, או לחפש מונח במילון המונחים כדי לגלות את הטבלאות הבסיסיות.

  1. במסוף Google Cloud , עוברים לדף Search ב-Knowledge Catalog.

    מעבר אל חיפוש

  2. לוחצים על Filters (מסננים) כדי לפתוח את החלונית Filters (מסננים).

  3. בקטע היקף, בוחרים באפשרות הפרויקט הנוכחי.

  4. בסרגל החיפוש, מזינים Find tables where the Data Asset Context aspect has Internal sensitivity.

  5. הטבלה retail_data.transactions אמורה להופיע ברשימת התוצאות.

  6. מנקים את סרגל החיפוש ומזינים Find tables with the Gross Merchandise Value term attached.

  7. שוב תופיע הטבלה retail_data.transactions בתוצאות, כי העמודה gmv שלה מקושרת ישירות למונח העסקי הזה.

כשמחברים סוכן AI ל-Knowledge Catalog, הוא מקבל בירושה את המטא-נתונים המועשרים האלה באופן אוטומטי. לדוגמה, כשמבקשים מסוכן AI לאחזר מדדי מכירות פנימיים, הוא קורא את ההיבט 'רגישות הנתונים' (שהגדרתם כ'פנימיים') ואת מונח המילון 'ערך ברוטו של סחורה' שמקושר אליו. ההקשר המשותף הזה עוזר לסוכן לאמת את מקורות הנתונים שלו, לפעול בהתאם למדיניות הגישה ולהימנע מהזיות.

הסרת המשאבים

כדי להימנע מחיובים, מוחקים את המשאבים שיצרתם במדריך הזה.

מחיקת מערך הנתונים לדוגמה

כדי למחוק את מערך הנתונים לדוגמה ב-BigQuery ואת כל הטבלאות שלו, משתמשים בפקודה הבאה. אי אפשר לבטל את הפעולה הזו.

# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)

# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data

מחיקת ארטיפקטים מ-Knowledge Catalog

  1. במסוף Google Cloud , עוברים לכרטיסייה Aspect types בקטלוג הידע בדף Metadata types.

    כניסה לדף Aspect types

  2. בוחרים את סוג ההיבט Data Asset Context ולוחצים על מחיקה.

  3. נכנסים לדף Glossaries ב-Knowledge Catalog במסוף Google Cloud .

    מעבר אל Glossaries

  4. בוחרים את המונח Gross Merchandise Value ולוחצים על מחיקה.

  5. בוחרים את הקטגוריה Sales Metrics ולוחצים על מחיקה.

  6. בוחרים את Retail Business Glossary ולוחצים על מחיקה.

המאמרים הבאים

מידע נוסף על אוצרות קטלוגים ועל בניית סוכנים באמצעות Knowledge Catalog זמין במקורות המידע הבאים: