מידע על ייבוא וייצוא של מילונים וקישורים לרשומות

במסמך הזה מפורטת סקירה כללית על ייבוא וייצוא של מילוני מונחים עסקיים וקישורים לרשומות ב-Knowledge Catalog (לשעבר Dataplex Universal Catalog).

מילון המונחים הארגוני של Knowledge Catalog מאפשר לכם להגדיר אוצר מילים עסקי משותף ולשייך את המונחים האלה לנכסי נתונים פיזיים. ככל שהקטלוג גדל, הניהול של התנאים האלה והקשרים ביניהם בנפרד במסוףGoogle Cloud יכול להיות מסובך.

כדי לנהל את מילון המונחים הארגוני בקנה מידה גדול, אפשר לייבא ולייצא מילונים (קטגוריות ומונחים) וקישורים לרשומות (הקשרים בין מונחים ונכסי נתונים) בכמות גדולה.

הסברים על המונחים

לפני שמשתמשים בכלי הייבוא והייצוא, חשוב להכיר את הרכיבים העיקריים הבאים:

  • משאבי מילון מונחים: כוללים קטגוריות ומונחים שיוצרים את אוצר המילים של העסק.
  • קישורי רשומה: קשרי הגומלין או השיוכים בין משאבים. ב-Knowledge Catalog יש תמיכה בשלושה סוגים של קישורי רשומה:

    • definition: משייך מונח במילון מונחים לנכס נתונים ספציפי (לדוגמה, עמודה ב-BigQuery)
    • related: מגדיר קשר בין שני מונחים קשורים במילון המונחים
    • synonym: יוצר קשר בין שני מונחים נרדפים במילון המונחים

שיטות לייבוא ולייצוא של מילונים וקישורים לרשומות

קטלוג הידע תומך בשתי שיטות עיקריות לניהול מונחים במילון המונחים בכמות גדולה. בוחרים את השיטה שהכי מתאימה לצרכים שלכם לאוטומציה ולממשק המועדף:

  • ייבוא מטא-נתונים מבוסס-JSON
  • כלי ייבוא וייצוא מבוססי Google Sheets

ייבוא מטא-נתונים מבוסס-JSON

זהו המנגנון המובנה והמנוהל במלואו של Knowledge Catalog. משתמשים ב-Dataplex API כדי לייבא מונחים במילון מונחים ואת הקשרים שלהם שמוגדרים בקובצי מטא-נתונים בפורמט JSON.

דוגמה לתרחיש שימוש: עדכון אוטומטי של המטא-נתונים של Knowledge Catalog כחלק מפייפליין נתונים מתוזמן יומי – למשל, סנכרון מונחים ישירות ממסד נתונים חיצוני של Enterprise.

מידע נוסף זמין במאמר בנושא ייבוא מילונים וקישורים לערכים באמצעות קובצי JSON.

כלי ייבוא וייצוא מבוססי Google Sheets

זוהי גישה בקוד פתוח שמבוססת על סקריפט שזמין במאגר dataplex-labs. הגישה הזו משתמשת בסקריפט Python כדי לסנכרן מטא-נתונים של מילון מונחים בין גיליון אלקטרוני של Google לבין Knowledge Catalog.

תרחיש לדוגמה: צוות של מנהלי נתונים רוצה לנסח ולבדוק עשרות מונחים עסקיים חדשים בשיתוף עם בעלי עניין עסקיים שאינם טכניים. הצוות משתמש בשיטה הזו שמבוססת על גיליון אלקטרוני כדי שכולם יוכלו לערוך את המונחים, להוסיף להם הערות ולאשר אותם ב-Google Sheets לפני שאדמין מריץ את הסקריפט כדי להעלות אותם בכמות גדולה אל Knowledge Catalog.

מידע נוסף זמין במאמרים הבאים:

תרחיש נפוץ לדוגמה: עריכה הלוך ושוב באמצעות Google Sheets

תהליך עבודה נפוץ לאדמינים הוא עריכה הלוך ושוב. התהליך כולל ייצוא של הגדרות הקטלוג הקיים, ביצוע שינויים בכמות גדולה של פריטים והחלת השינויים האלה בחזרה על Knowledge Catalog.

בתרשים הבא מוצג תהליך העבודה לביצוע הפעולה הזו:

  1. ייצוא מטא-נתונים קיימים מקטלוג הידע ל-Google Sheets.

    אפשר להשתמש בכלי השירות ייצוא מילון מונחים וייצוא קישורים לרשומות כדי לחלץ את המבנה הקיים של מילון המונחים ואת הקישורים לרשומות לתוך גיליון אלקטרוני ב-Google Sheets.

  2. לשנות את המטא-נתונים ב-Google Sheets.

    מבצעים את השינויים הנדרשים בגיליון האלקטרוני ב-Google Sheets. קישורים סימטריים (כמו קישורי כניסה synonym ו-related) מפושטים לכיוון אחד במהלך הייצוא כדי למנוע שורות כפולות, ולכן צריך לנהל אותם רק פעם אחת.

    אפשר להוסיף שורות חדשות לגיליון המתאים לפי סכימת העמודות הנדרשת. אפשר גם לשנות פרטים כמו תיאורים או שמות מוצגים ישירות בשורות.

  3. הכנת שינויים לייבוא מ-Google Sheets בחזרה אל Knowledge Catalog.

    קודם מריצים את כלי השירות glossary import. כך תוכלו לוודא שכל המונחים או הקטגוריות החדשים נוצרו בהצלחה במילון המונחים הארגוני לפני שתנסו לקשר אותם.

    מריצים את כלי השירות ייבוא קישורי כניסה. הכלי הזה קורא את השיוכים המעודכנים, מעביר אותם לקטגוריה ב-Cloud Storage ומחיל את הקישורים definition, related ו-synonym על המילון המעודכן.

המאמרים הבאים