במאמר הזה מוסבר איך להשתמש בכלי לייצוא מילון המונחים הארגוני כדי לחלץ מילוני מונחים, קטגוריות ומונחים מ-Knowledge Catalog (לשעבר Dataplex Universal Catalog) לגיליון אלקטרוני ב-Google Sheets, לצורך ניהול ודיווח בכמות גדולה.
כלי השירות glossary_export מאחזר מטא-נתונים ממילון המונחים הארגוני של Knowledge Catalog ומאכלס גיליון אלקטרוני ב-Google Sheets עם סכימה מובנית, כולל תיאורים, נאמני נתונים ותוויות.
לפני שמתחילים
לפני שמייצאים מילונים, צריך לבצע את הפעולות הבאות.
הגדרת חשבון השירות
כדי להריץ את כלי הייצוא, צריך להגדיר חשבון שירות עם ההרשאות הנדרשות לגישה ל-Google Sheets API ולהתחזות לפרטי הכניסה של המשתמש:
מאתרים או יוצרים חשבון שירות.
בוחרים חשבון שירות קיים או יוצרים חשבון שירות חדש בפרויקט שבו מריצים את כלי הייבוא. מידע נוסף זמין במאמר יצירת חשבונות שירות. רושמים את כתובת האימייל בחשבון השירות (לדוגמה,
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com).מגדירים התחזות לחשבון שירות.
כדי להריץ את סקריפט כלי הייצוא באופן מקומי, לחשבון המשתמש שלכם צריכה להיות הרשאה להתחזות לחשבון השירות. מקצים לחשבון המשתמש את התפקיד יצירת אסימונים בחשבון שירות (
roles/iam.serviceAccountTokenCreator) בחשבון השירות.מידע נוסף מופיע במאמר בנושא ניהול הגישה לחשבונות שירות.
מעניקים לחשבון השירות
Editorגישה לגיליון האלקטרוני ב-Google Sheets.פותחים את גיליון Google שרוצים להשתמש בו בתהליך הייבוא, לוחצים על שיתוף ומוסיפים את כתובת האימייל בחשבון השירות כ
Editor. ההרשאה הזו מאפשרת לחשבון השירות לקרוא נתונים מהגיליון או לכתוב נתונים בגיליון.
התפקידים הנדרשים
כדי לוודא שלחשבון השירות יש את ההרשאות שנדרשות לייצוא מילוני מונחים לגיליון אלקטרוני של Google, צריך לבקש מהאדמין להקצות לחשבון השירות את תפקידי ה-IAM הבאים:
- אדמין Dataplex (
roles/dataplex.admin) בפרויקט - אדמין של Dataplex Catalog (
roles/dataplex.catalogAdmin) בפרויקט - Dataplex Catalog Editor (
roles/dataplex.catalogEditor) on the project
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
יכול להיות שהאדמין גם יוכל לתת לחשבון השירות את ההרשאות שנדרשות באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
הפעלת ממשקי ה-API
כדי לייצא מילונים, צריך להפעיל את ממשקי ה-API הבאים בפרויקט:
תפקידים שנדרשים להפעלת ממשקי API
כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאה serviceusage.services.enable. איך מקצים תפקידים
הגדרת מאגר Git
משכפלים את המאגר dataplex-labs:
git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/export
התקנת יחסי תלות
מתקינים את יחסי התלות הנדרשים של Python:
pip3 install -r requirements.txt
אם נתקלים בבעיות בהתקנת החבילה, מגדירים סביבת פיתוח חדשה בשפת Python.
אימות והגדרה של התחזות לחשבון שירות
מאתחלים את Google Cloud CLI ומבצעים אימות באמצעות Application Default Credentials (ADC) עם התחזות לחשבון שירות:
# Set your service account email address SA_EMAIL="SERVICE_ACCOUNT_EMAIL" # Authenticate ADC using service account impersonation and required scopes gcloud auth application-default login \ --impersonate-service-account="${SA_EMAIL}" \ --scopes="https://www.googleapis.com/auth/spreadsheets"
מחליפים את SERVICE_ACCOUNT_EMAIL בכתובת האימייל בחשבון השירות. לדוגמה:
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com
הגדרת גיליון היעד ב-Google Sheets לייצוא
יוצרים גיליון ריק ב-Google Sheets או משתמשים בגיליון קיים. סקריפט הייצוא כותב לגיליון הראשון. מוודאים שהענקתם לחשבון השירות Editorגישה לגיליון ב-Google Sheets.
ייצוא מילון המונחים לגיליון Google
מריצים את הסקריפט glossary-export.py. במהלך ההפעלה, כלי השירות יבקש מכם לציין את גיליון Google Sheets של היעד ואת שם המילון הספציפי שאתם רוצים לייצא:
python3 glossary-export.py
אפשר לעיין ביומני ההפעלה בספרייה logs/ בנתיב ההפעלה המקומי. היומנים האלה עוזרים לכם לבדוק את תהליך ההעברה ולזהות רשומות שדילגו עליהן או אזהרות לגבי עיצוב.
אימות נתוני המילון המונחים שיוצאו
תסריט הייצוא מאכלס את הגיליון האלקטרוני ב-Google Sheets בעמודות הבאות. בודקים את הנתונים המיוצאים.
| שדה | תיאור |
|---|---|
id |
מזהה ייחודי למונח או לקטגוריה במילון המונחים. |
parent |
המזהה של קטגוריית ההורה. |
display_name |
השם המוצג של המונח או הקטגוריה. |
description |
תיאור קצר של המונח או הקטגוריה. |
overview |
תיאור בפורמט טקסט עשיר של המונח או הקטגוריה (תומך בתגי HTML). |
type |
סוג השורה: TERM או CATEGORY. |
contact1_email |
כתובת האימייל של האחראי הראשי על הנתונים של המונח או הקטגוריה. |
contact1_name |
השם של האחראי הראשי על הנתונים של המונח או הקטגוריה. |
contact2_email |
כתובת האימייל של האחראי המשני על הנתונים של המונח או הקטגוריה. |
contact2_name |
השם של האחראי המשני על הנתונים עבור המונח או הקטגוריה. |
label1_key |
המפתח של התווית הראשונה שהוקצתה. |
label1_value |
הערך של התווית הראשונה שהוקצתה. |
label2_key |
המפתח של התווית השנייה שהוקצתה. |
label2_value |
הערך של התווית השנייה שהוקצתה. |
המאמרים הבאים
- איך מנהלים מילון מונחים עסקי
- איך מייבאים מילונים באמצעות קובצי JSON
- איך מייבאים מילוני מונחים מגיליון אלקטרוני ב-Google Sheets
- מידע נוסף על ניהול מטא-נתונים