מידע על ייבוא וייצוא של מילונים וקישורים לרשומות

במסמך הזה מפורטת סקירה כללית על ייבוא וייצוא של מילוני מונחים עסקיים וקישורים לרשומות ב-Knowledge Catalog (לשעבר Dataplex Universal Catalog).

מילון המונחים הארגוני של Knowledge Catalog מאפשר לכם להגדיר אוצר מילים עסקי משותף ולשייך את המונחים האלה לנכסי נתונים פיזיים. ככל שהקטלוג גדל, הניהול של התנאים האלה והקשרים ביניהם בנפרד במסוףGoogle Cloud יכול להיות מסובך.

כדי לנהל את מילון המונחים הארגוני בקנה מידה גדול, אפשר לייבא ולייצא מילונים (קטגוריות ומונחים) וקישורים לרשומות (הקשרים בין מונחים ונכסי נתונים) בכמות גדולה.

הסברים על המונחים

לפני שמשתמשים בכלי הייבוא והייצוא, חשוב להכיר את הרכיבים העיקריים הבאים:

  • משאבי מילון מונחים: כוללים קטגוריות ומונחים שיוצרים את אוצר המילים של העסק.
  • קישורי כניסה: הקשרים או השיוכים בין משאבים. ב-Knowledge Catalog יש שלושה סוגים של קישורים לרשומות:

    • definition: משייך מונח במילון מונחים לנכס נתונים ספציפי (לדוגמה, עמודה ב-BigQuery)
    • related: מגדיר קשר בין שני מונחים קשורים במילון המונחים
    • synonym: יוצר קשר בין שני מונחים נרדפים במילון המונחים

שיטות לייבוא ולייצוא של מילונים וקישורים לרשומות

Knowledge Catalog תומך בשתי שיטות עיקריות לניהול מונחים במילון מונחים בכמות גדולה. בוחרים את השיטה שהכי מתאימה לצרכים שלכם באוטומציה ולממשק המועדף:

  • ייבוא מטא-נתונים מבוסס JSON
  • כלי ייבוא וייצוא מבוססי Google Sheets

ייבוא מטא-נתונים מבוסס JSON

זהו המנגנון המובנה והמנוהל במלואו של Knowledge Catalog. משתמשים ב-Dataplex API כדי לייבא מונחים במילון מונחים ואת הקשרים שלהם שמוגדרים בקובצי מטא-נתונים בפורמט JSON.

דוגמה לתרחיש שימוש: עדכון אוטומטי של המטא-נתונים של Knowledge Catalog כחלק מפייפליין נתונים מתוזמן יומי – למשל, סנכרון מונחים ישירות ממסד נתונים חיצוני של Enterprise.

מידע נוסף זמין במאמר בנושא ייבוא מילונים וקישורים לערכים באמצעות קובצי JSON.

כלי ייבוא וייצוא מבוססי Google Sheets

זו גישה מבוססת-סקריפט בקוד פתוח שמופיעה במאגר dataplex-labs. הוא משתמש בסקריפט Python כדי לסנכרן מטא-נתונים של מילון מונחים בין גיליון אלקטרוני ב-Google Sheets לבין Knowledge Catalog.

דוגמה לתרחיש שימוש: צוות לניהול נתונים רוצה לנסח ולבדוק עשרות מונחים עסקיים חדשים בשיתוף עם בעלי עניין עסקיים שאינם טכניים. הצוות משתמש בשיטה הזו שמבוססת על גיליון אלקטרוני כדי שכולם יוכלו לערוך את התנאים, להוסיף להם הערות ולאשר אותם ב-Google Sheets, לפני שאדמין מריץ את הסקריפט כדי להעלות אותם ל-Knowledge Catalog בכמות גדולה.

מידע נוסף זמין במאמרים הבאים:

תרחיש נפוץ לדוגמה: עריכה הלוך ושוב באמצעות Google Sheets

תהליך עבודה נפוץ לאדמינים הוא עריכה הלוך ושוב. התהליך כולל ייצוא של הגדרות הקטלוג הקיים, ביצוע שינויים בכמות גדולה של פריטים והחלת השינויים האלה בחזרה על Knowledge Catalog.

בתרשים הבא מוצג תהליך העבודה לביצוע הפעולה הזו:

  1. ייצוא מטא-נתונים קיימים מקטלוג הידע ל-Google Sheets.

    משתמשים בכלי השירות ייצוא מילון מונחים וייצוא קישורי רשומות כדי לחלץ את המבנה הקיים של מילון המונחים ואת קישורי הרשומות לגיליון אלקטרוני ב-Google Sheets.

  2. לשנות את המטא-נתונים ב-Google Sheets.

    מבצעים את השינויים הנדרשים בגיליון האלקטרוני ב-Google Sheets. קישורים סימטריים (כמו קישורי כניסה synonym ו-related) מפושטים לכיוון אחד במהלך הייצוא כדי למנוע שורות כפולות, ולכן צריך לנהל אותם רק פעם אחת.

    אפשר להוסיף שורות חדשות לגיליון המתאים לפי סכימת העמודות הנדרשת. אפשר גם לשנות פרטים כמו תיאורים או שמות מוצגים ישירות בשורות.

  3. העברה וייבוא של שינויים מ-Google Sheets בחזרה אל Knowledge Catalog.

    קודם מריצים את כלי השירות glossary import. כך תוכלו לוודא שכל המונחים או הקטגוריות החדשים נוצרו בהצלחה במילון המונחים הארגוני לפני שתנסו לקשר אותם.

    מריצים את כלי השירות ייבוא קישורי כניסה. הכלי הזה קורא את השיוכים המעודכנים, מעביר אותם לקטגוריה שלכם ב-Cloud Storage ומחיל את הקישורים definition, related ו-synonym על המילון המעודכן.

המאמרים הבאים