במאמר הזה מוסבר איך להשתמש בכלי לייצוא קישורי כניסה כדי לחלץ קישורי כניסה (קשרים בין מונחים במילון המונחים לבין נכסי נתונים) מ-Knowledge Catalog (לשעבר Dataplex Universal Catalog) לגיליון אלקטרוני ב-Google Sheets.
אפשר לייצא קישורים לרשומות לגיליון אלקטרוני ב-Google Sheets כדי לבדוק קישורים קיימים, לגבות את המטא-נתונים או להכין תבנית לעדכונים בכמות גדולה.
לפני שמתחילים
לפני שמייצאים קישורים להזנת נתונים לגיליון אלקטרוני ב-Google, צריך לוודא שמתקיימים התנאים המוקדמים הבאים.
הגדרת חשבון השירות
כדי להריץ את כלי הייצוא, צריך להגדיר חשבון שירות עם ההרשאות הנדרשות לגישה ל-Google Sheets API ולהתחזות לפרטי הכניסה של המשתמש:
מאתרים או יוצרים חשבון שירות.
בוחרים חשבון שירות קיים או יוצרים חשבון שירות חדש בפרויקט שבו מריצים את כלי הייבוא. מידע נוסף זמין במאמר יצירת חשבונות שירות. רושמים את כתובת האימייל בחשבון השירות (לדוגמה,
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com).מגדירים התחזות לחשבון שירות.
כדי להריץ את סקריפט כלי הייצוא באופן מקומי, לחשבון המשתמש שלכם צריכה להיות הרשאה להתחזות לחשבון השירות. מקצים לחשבון המשתמש את התפקיד יצירת אסימונים בחשבון שירות (
roles/iam.serviceAccountTokenCreator) בחשבון השירות.מידע נוסף מופיע במאמר בנושא ניהול הגישה לחשבונות שירות.
מעניקים לחשבון השירות
Editorגישה לגיליון האלקטרוני ב-Google Sheets.פותחים את גיליון Google שרוצים להשתמש בו בתהליך הייבוא, לוחצים על שיתוף ומוסיפים את כתובת האימייל בחשבון השירות כ
Editor. ההרשאה הזו מאפשרת לחשבון השירות לקרוא נתונים מהגיליון או לכתוב נתונים בגיליון.
התפקידים הנדרשים
כדי לוודא שלחשבון השירות יש את ההרשאות שנדרשות לייצוא קישורים לרשומות לגיליון אלקטרוני של Google, צריך לבקש מהאדמין להקצות לחשבון השירות את תפקידי ה-IAM הבאים:
- אדמין Dataplex (
roles/dataplex.admin) בפרויקט - אדמין של Dataplex Catalog (
roles/dataplex.catalogAdmin) בפרויקט - Dataplex Catalog Editor (
roles/dataplex.catalogEditor) on the project
להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
יכול להיות שהאדמין גם יוכל לתת לחשבון השירות את ההרשאות שנדרשות באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.
הפעלת ממשקי ה-API
כדי לייצא קישורים לרשומות, צריך להפעיל את ממשקי ה-API הבאים בפרויקט:
תפקידים שנדרשים להפעלת ממשקי API
כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאה serviceusage.services.enable. איך מקצים תפקידים
הגדרת מאגר Git
משכפלים את המאגר dataplex-labs:
git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/export
התקנת יחסי תלות
מתקינים את יחסי התלות הנדרשים של Python:
pip3 install -r requirements.txt cd dataplex-glossary
אם נתקלים בבעיות בהתקנת החבילה, מגדירים סביבת פיתוח חדשה בשפת Python.
אימות והגדרה של התחזות לחשבון שירות
מאתחלים את Google Cloud CLI ומבצעים אימות באמצעות Application Default Credentials (ADC) עם התחזות לחשבון שירות:
# Set your service account email address SA_EMAIL="SERVICE_ACCOUNT_EMAIL" # Authenticate ADC using service account impersonation and required scopes gcloud init gcloud auth login gcloud auth application-default login \ --impersonate-service-account="${SA_EMAIL}" \ --scopes="https://www.googleapis.com/auth/spreadsheets"
מחליפים את SERVICE_ACCOUNT_EMAIL בכתובת האימייל בחשבון השירות. לדוגמה:
SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com
הגדרת גיליון היעד ב-Google Sheets לייצוא
יוצרים גיליון ריק ב-Google Sheets או משתמשים בגיליון קיים. סקריפט הייצוא כותב לגיליון הראשון. מוודאים שהענקתם לחשבון השירות Editorגישה לגיליון ב-Google Sheets.
הגדרה של משתני סביבה
מגדירים את משתני הסביבה הבאים:
# Set your glossary URL export GLOSSARY_URL="GLOSSARY_URL" # Set your Google Sheet URL export SPREADSHEET_URL="GOOGLE_SHEET_URL" # Set the project ID export USER_PROJECT="USER_PROJECT"
ייצוא קישורים להזנת נתונים לגיליון Google
כדי לייצא קישורים לרשומות במילון המונחים לגיליון אלקטרוני ב-Google Sheets, מריצים את הסקריפט הבא:
cd export python3 entrylinks-export.py \ --glossary-url="$GLOSSARY_URL" \ --spreadsheet-url="$SPREADSHEET_URL" \ --user-project="$USER_PROJECT"
אפשר לעיין ביומני ההפעלה בספרייה logs/ בנתיב ההפעלה המקומי. היומנים האלה עוזרים לכם לבדוק את תהליך ההעברה ולזהות רשומות שדילגו עליהן או אזהרות לגבי עיצוב.
אימות הנתונים של קישורי הכניסה שיוצאו
סקריפט הייצוא מאכלס את הגיליון האלקטרוני ב-Google Sheets בעמודות הבאות:
| כותרת עמודה | תיאור |
|---|---|
entry_link_type |
סוג קישור הכניסה (definition, related או synonym). |
source_entry |
נתיב המשאב המלא של רשומת המקור. |
target_entry |
הנתיב המלא של משאב רשומת היעד. |
source_path |
הנתיב של העמודה או השדה לקישורי הגדרה. |
המאמרים הבאים
- איך מנהלים מילון מונחים עסקי
- איך מייבאים קישורים להצטרפות מגיליון אלקטרוני ב-Google Sheets
- איך מייצאים מילוני מונחים לגיליון אלקטרוני ב-Google Sheets
- מידע נוסף על ניהול מטא-נתונים