ייצוא קישורים לרשומות לגיליון אלקטרוני ב-Google

במאמר הזה מוסבר איך להשתמש בכלי לייצוא קישורי כניסה כדי לחלץ קישורי כניסה (קשרים בין מונחים במילון המונחים לבין נכסי נתונים) מ-Knowledge Catalog (לשעבר Dataplex Universal Catalog) לגיליון אלקטרוני ב-Google Sheets.

אפשר לייצא קישורים לרשומות לגיליון אלקטרוני ב-Google Sheets כדי לבדוק קישורים קיימים, לגבות את המטא-נתונים או להכין תבנית לעדכונים בכמות גדולה.

לפני שמתחילים

לפני שמייצאים קישורים להזנת נתונים לגיליון אלקטרוני ב-Google, צריך לוודא שמתקיימים התנאים המוקדמים הבאים.

הגדרת חשבון השירות

כדי להריץ את כלי הייצוא, צריך להגדיר חשבון שירות עם ההרשאות הנדרשות לגישה ל-Google Sheets API ולהתחזות לפרטי הכניסה של המשתמש:

  1. מאתרים או יוצרים חשבון שירות.

    בוחרים חשבון שירות קיים או יוצרים חשבון שירות חדש בפרויקט שבו מריצים את כלי הייבוא. מידע נוסף זמין במאמר יצירת חשבונות שירות. רושמים את כתובת האימייל בחשבון השירות (לדוגמה, SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com).

  2. מגדירים התחזות לחשבון שירות.

    כדי להריץ את סקריפט כלי הייצוא באופן מקומי, לחשבון המשתמש שלכם צריכה להיות הרשאה להתחזות לחשבון השירות. מקצים לחשבון המשתמש את התפקיד יצירת אסימונים בחשבון שירות (roles/iam.serviceAccountTokenCreator) בחשבון השירות.

    מידע נוסף מופיע במאמר בנושא ניהול הגישה לחשבונות שירות.

  3. מעניקים לחשבון השירות Editor גישה לגיליון האלקטרוני ב-Google Sheets.

    פותחים את גיליון Google שרוצים להשתמש בו בתהליך הייבוא, לוחצים על שיתוף ומוסיפים את כתובת האימייל בחשבון השירות כEditor. ההרשאה הזו מאפשרת לחשבון השירות לקרוא נתונים מהגיליון או לכתוב נתונים בגיליון.

התפקידים הנדרשים

כדי לוודא שלחשבון השירות יש את ההרשאות שנדרשות לייצוא קישורים לרשומות לגיליון אלקטרוני של Google, צריך לבקש מהאדמין להקצות לחשבון השירות את תפקידי ה-IAM הבאים:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

יכול להיות שהאדמין גם יוכל לתת לחשבון השירות את ההרשאות שנדרשות באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

הפעלת ממשקי ה-API

כדי לייצא קישורים לרשומות, צריך להפעיל את ממשקי ה-API הבאים בפרויקט:

תפקידים שנדרשים להפעלת ממשקי API

כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאה serviceusage.services.enable. איך מקצים תפקידים

הפעלת ממשקי ה-API

הגדרת מאגר Git

משכפלים את המאגר dataplex-labs:

git clone https://github.com/GoogleCloudPlatform/dataplex-labs.git
cd dataplex-labs/dataplex-quickstart-labs/00-resources/scripts/python/business-glossary-import/dataplex-glossary/export

התקנת יחסי תלות

מתקינים את יחסי התלות הנדרשים של Python:

pip3 install -r requirements.txt
cd dataplex-glossary

אם נתקלים בבעיות בהתקנת החבילה, מגדירים סביבת פיתוח חדשה בשפת Python.

אימות והגדרה של התחזות לחשבון שירות

מאתחלים את Google Cloud CLI ומבצעים אימות באמצעות Application Default Credentials ‏ (ADC) עם התחזות לחשבון שירות:

# Set your service account email address
SA_EMAIL="SERVICE_ACCOUNT_EMAIL"

# Authenticate ADC using service account impersonation and required scopes
gcloud init
gcloud auth login
gcloud auth application-default login \
  --impersonate-service-account="${SA_EMAIL}" \
  --scopes="https://www.googleapis.com/auth/spreadsheets"

מחליפים את SERVICE_ACCOUNT_EMAIL בכתובת האימייל בחשבון השירות. לדוגמה:

SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com

הגדרת גיליון היעד ב-Google Sheets לייצוא

יוצרים גיליון ריק ב-Google Sheets או משתמשים בגיליון קיים. סקריפט הייצוא כותב לגיליון הראשון. מוודאים שהענקתם לחשבון השירות Editorגישה לגיליון ב-Google Sheets.

הגדרה של משתני סביבה

מגדירים את משתני הסביבה הבאים:

# Set your glossary URL
export GLOSSARY_URL="GLOSSARY_URL"

# Set your Google Sheet URL
export SPREADSHEET_URL="GOOGLE_SHEET_URL"

# Set the project ID
export USER_PROJECT="USER_PROJECT"

ייצוא קישורים להזנת נתונים לגיליון Google

כדי לייצא קישורים לרשומות במילון המונחים לגיליון אלקטרוני ב-Google Sheets, מריצים את הסקריפט הבא:

cd export
python3 entrylinks-export.py \
  --glossary-url="$GLOSSARY_URL" \
  --spreadsheet-url="$SPREADSHEET_URL" \
  --user-project="$USER_PROJECT"

אפשר לעיין ביומני ההפעלה בספרייה logs/ בנתיב ההפעלה המקומי. היומנים האלה עוזרים לכם לבדוק את תהליך ההעברה ולזהות רשומות שדילגו עליהן או אזהרות לגבי עיצוב.

אימות הנתונים של קישורי הכניסה שיוצאו

סקריפט הייצוא מאכלס את הגיליון האלקטרוני ב-Google Sheets בעמודות הבאות:

כותרת עמודה תיאור
entry_link_type סוג קישור הכניסה (definition,‏ related או synonym).
source_entry נתיב המשאב המלא של רשומת המקור.
target_entry הנתיב המלא של משאב רשומת היעד.
source_path הנתיב של העמודה או השדה לקישורי הגדרה.

המאמרים הבאים