ייצוא מילוני מונחים עסקיים לגיליון אלקטרוני ב-Google

במאמר הזה מוסבר איך להשתמש בכלי לייצוא מילון המונחים הארגוני כדי לחלץ מילוני מונחים, קטגוריות ומונחים מ-Knowledge Catalog (לשעבר Dataplex Universal Catalog) לגיליון אלקטרוני ב-Google Sheets, לצורך ניהול ודיווח בכמות גדולה.

כלי השירות glossary_export מאחזר מטא-נתונים ממילון המונחים הארגוני של Knowledge Catalog ומאכלס גיליון אלקטרוני ב-Google Sheets עם סכימה מובנית, כולל תיאורים, נאמני נתונים ותוויות.

לפני שמתחילים

לפני שמייצאים מילונים, צריך לבצע את הפעולות הבאות.

הגדרת חשבון השירות

כדי להריץ את כלי הייצוא, צריך להגדיר חשבון שירות עם ההרשאות הנדרשות לגישה ל-Google Sheets API ולהתחזות לפרטי הכניסה של המשתמש:

  1. מאתרים או יוצרים חשבון שירות.

    בוחרים חשבון שירות קיים או יוצרים חשבון שירות חדש בפרויקט שבו מריצים את כלי הייבוא. מידע נוסף זמין במאמר יצירת חשבונות שירות. רושמים את כתובת האימייל בחשבון השירות (לדוגמה, SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com).

  2. מגדירים התחזות לחשבון שירות.

    כדי להריץ את סקריפט כלי הייצוא באופן מקומי, לחשבון המשתמש שלכם צריכה להיות הרשאה להתחזות לחשבון השירות. מקצים לחשבון המשתמש את התפקיד יצירת אסימונים בחשבון שירות (roles/iam.serviceAccountTokenCreator) בחשבון השירות.

    מידע נוסף מופיע במאמר בנושא ניהול הגישה לחשבונות שירות.

  3. מעניקים לחשבון השירות Editor גישה לגיליון האלקטרוני ב-Google Sheets.

    פותחים את גיליון Google שרוצים להשתמש בו בתהליך הייבוא, לוחצים על שיתוף ומוסיפים את כתובת האימייל בחשבון השירות כEditor. ההרשאה הזו מאפשרת לחשבון השירות לקרוא נתונים מהגיליון או לכתוב נתונים בגיליון.

התפקידים הנדרשים

כדי לוודא שלחשבון השירות יש את ההרשאות שנדרשות לייצוא מילוני מונחים לגיליון אלקטרוני של Google, צריך לבקש מהאדמין להקצות לחשבון השירות את תפקידי ה-IAM הבאים:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

יכול להיות שהאדמין גם יוכל לתת לחשבון השירות את ההרשאות שנדרשות באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

הפעלת ממשקי ה-API

כדי לייצא מילונים, צריך להפעיל את ממשקי ה-API הבאים בפרויקט:

תפקידים שנדרשים להפעלת ממשקי API

כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאה serviceusage.services.enable. איך מקצים תפקידים

הפעלת ממשקי ה-API

הגדרת מאגר Git

משכפלים את המאגר dataplex-labs:

git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git
cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/export

התקנת יחסי תלות

מתקינים את יחסי התלות הנדרשים של Python:

pip3 install -r requirements.txt

אם נתקלים בבעיות בהתקנת החבילה, מגדירים סביבת פיתוח חדשה בשפת Python.

אימות והגדרה של התחזות לחשבון שירות

מאתחלים את Google Cloud CLI ומבצעים אימות באמצעות Application Default Credentials ‏ (ADC) עם התחזות לחשבון שירות:

# Set your service account email address
SA_EMAIL="SERVICE_ACCOUNT_EMAIL"

# Authenticate ADC using service account impersonation and required scopes
gcloud auth application-default login \
  --impersonate-service-account="${SA_EMAIL}" \
  --scopes="https://www.googleapis.com/auth/spreadsheets"

מחליפים את SERVICE_ACCOUNT_EMAIL בכתובת האימייל בחשבון השירות. לדוגמה:

SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com

הגדרת גיליון היעד ב-Google Sheets לייצוא

יוצרים גיליון ריק ב-Google Sheets או משתמשים בגיליון קיים. סקריפט הייצוא כותב לגיליון הראשון. מוודאים שהענקתם לחשבון השירות Editorגישה לגיליון ב-Google Sheets.

ייצוא מילון המונחים לגיליון Google

מריצים את הסקריפט glossary-export.py. במהלך ההפעלה, כלי השירות יבקש מכם לציין את גיליון Google Sheets של היעד ואת שם המילון הספציפי שאתם רוצים לייצא:

python3 glossary-export.py

אפשר לעיין ביומני ההפעלה בספרייה logs/ בנתיב ההפעלה המקומי. היומנים האלה עוזרים לכם לבדוק את תהליך ההעברה ולזהות רשומות שדילגו עליהן או אזהרות לגבי עיצוב.

אימות נתוני המילון המונחים שיוצאו

תסריט הייצוא מאכלס את הגיליון האלקטרוני ב-Google Sheets בעמודות הבאות. בודקים את הנתונים המיוצאים.

שדה תיאור
id מזהה ייחודי למונח או לקטגוריה במילון המונחים.
parent המזהה של קטגוריית ההורה.
display_name השם המוצג של המונח או הקטגוריה.
description תיאור קצר של המונח או הקטגוריה.
overview תיאור בפורמט טקסט עשיר של המונח או הקטגוריה (תומך בתגי HTML).
type סוג השורה: TERM או CATEGORY.
contact1_email כתובת האימייל של האחראי הראשי על הנתונים של המונח או הקטגוריה.
contact1_name השם של האחראי הראשי על הנתונים של המונח או הקטגוריה.
contact2_email כתובת האימייל של האחראי המשני על הנתונים של המונח או הקטגוריה.
contact2_name השם של האחראי המשני על הנתונים עבור המונח או הקטגוריה.
label1_key המפתח של התווית הראשונה שהוקצתה.
label1_value הערך של התווית הראשונה שהוקצתה.
label2_key המפתח של התווית השנייה שהוקצתה.
label2_value הערך של התווית השנייה שהוקצתה.

המאמרים הבאים