Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ייבוא מטא-נתונים ממקור מותאם אישית באמצעות Workflows

במאמר הזה מוסבר איך לייבא מטא-נתונים ממקורות של צד שלישי אל Dataplex Universal Catalog. כדי לעשות את זה, צריך להגדיר ולהפעיל צינור קישוריות מנוהל ב-Workflows. בצינור הזה מתבצעת פעולת חילוץ של מטא-נתונים ממקור הנתונים המותאם אישית שלכם, וייבוא שלהם אל Dataplex Universal Catalog, וכך נוצרות קבוצות של רשומות שנדרשות.

מידע נוסף על קישוריות מנוהלת זמין במאמר סקירה כללית על קישוריות מנוהלת.

לפני שמתחילים

לפני שמייבאים מטא-נתונים, צריך להשלים את המשימות שבקטע הזה.

יצירת מחבר

מחבר מחלץ את המטא-נתונים ממקור הנתונים ויוצר קובץ ייבוא של מטא-נתונים שאפשר לייבא באמצעות Dataplex Universal Catalog. המחבר הוא תמונה של Artifact Registry שאפשר להפעיל ב-Google Cloud Serverless for Apache Spark.

יוצרים מחבר בהתאמה אישית שמחלץ מטא-נתונים ממקור צד שלישי.

דוגמה למחבר שאפשר להשתמש בו כתבנית הפניה כדי ליצור מחבר משלכם מופיעה במאמר פיתוח מחבר בהתאמה אישית לייבוא מטא-נתונים.

הגדרת Google Cloud משאבים

Enable the Workflows, Dataproc, Cloud Storage, Dataplex, Secret Manager, Artifact Registry, and Cloud Scheduler APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

אם אתם לא מתכננים להריץ את צינור הנתונים לפי לוח זמנים, אתם לא צריכים להפעיל את Cloud Scheduler API.
יוצרים סודות ב-Secret Manager כדי לאחסן את פרטי הכניסה למקור הנתונים של הצד השלישי.
הגדרת רשת של ענן וירטואלי פרטי (VPC) להרצת עומסי עבודה של Serverless for Apache Spark.
יוצרים קטגוריה של Cloud Storage לאחסון קובצי ייבוא המטא-נתונים.
יוצרים את המשאבים הבאים של Dataplex Universal Catalog:
1. יוצרים סוגים מותאמים אישית של היבטים לרשומות שרוצים לייבא.
2. יוצרים סוגים מותאמים אישית של רשומות לרשומות שרוצים לייבא.

התפקידים הנדרשים

חשבון שירות מייצג את הזהות של תהליך עבודה, וקובע אילו הרשאות יש לתהליך העבודה ולאילו משאבים הוא יכול לגשת. Google Cloud אתם צריכים חשבון שירות ל-Workflows (כדי להפעיל את צינור הנתונים) ול-Serverless for Apache Spark (כדי להפעיל את המחבר).

אתם יכולים להשתמש בחשבון השירות של Compute Engine שמוגדר כברירת מחדל (PROJECT_NUMBER-compute@developer.gserviceaccount.com), או ליצור חשבון שירות משלכם (או חשבונות) כדי להריץ את צינור הקישוריות המנוהל.

המסוף

נכנסים לדף IAM במסוף Google Cloud .

כניסה לדף IAM
בוחרים את הפרויקט שאליו רוצים לייבא את המטא-נתונים.
לוחצים על Grant Access (הענקת גישה) ומזינים את כתובת האימייל של חשבון השירות.
מקצים לחשבון השירות את התפקידים הבאים:
- Logs Writer
- Dataplex Entry Group Owner
- הבעלים של משימת המטא-נתונים של Dataplex
- Dataplex Catalog Editor
- עורך של Dataproc
- Dataproc Worker
- ‫Secret Manager Secret Accessor – בהרשאה הסודית שמאחסנת את פרטי הכניסה למקור הנתונים
- משתמש באובייקט אחסון – בקטגוריה של Cloud Storage
- ‫Artifact Registry Reader – במאגר Artifact Registry שמכיל את תמונת המחבר
- משתמש בחשבון שירות – אם משתמשים בחשבונות שירות שונים, צריך להעניק לחשבון השירות שמריץ את Workflows את התפקיד הזה בחשבון השירות שמריץ את משימות האצווה של Serverless for Apache Spark.
- ‫Workflows Invoker – אם רוצים לתזמן את הפייפליין
שומרים את השינויים.

gcloud

נותנים לחשבון השירות תפקידים. מריצים את הפקודות הבאות:

gcloud projects add-iam-policy-binding PROJECT_ID \
    --member="serviceAccount:SERVICE_ACCOUNT_ID" \
    --role=roles/logging.logWriter
gcloud projects add-iam-policy-binding PROJECT_ID \
    --member="serviceAccount:SERVICE_ACCOUNT_ID" \
    --role=roles/dataplex.entryGroupOwner
gcloud projects add-iam-policy-binding PROJECT_ID \
    --member="serviceAccount:SERVICE_ACCOUNT_ID" \
    --role=roles/dataplex.metadataJobOwner
gcloud projects add-iam-policy-binding PROJECT_ID \
    --member="serviceAccount:SERVICE_ACCOUNT_ID" \
    --role=roles/dataplex.catalogEditor
gcloud projects add-iam-policy-binding PROJECT_ID \
    --member="serviceAccount:SERVICE_ACCOUNT_ID" \
    --role=roles/dataproc.editor
gcloud projects add-iam-policy-binding PROJECT_ID \
    --member="serviceAccount:SERVICE_ACCOUNT_ID" \
    --role=roles/dataproc.worker

מחליפים את מה שכתוב בשדות הבאים:

‫PROJECT_ID: השם של פרויקט היעד Google Cloudשאליו רוצים לייבא את המטא-נתונים.
‫SERVICE_ACCOUNT_ID: חשבון השירות, למשל my-service-account@my-project.iam.gserviceaccount.com.

מקצים לחשבון השירות את התפקידים הבאים ברמת המשאב:

gcloud secrets add-iam-policy-binding SECRET_ID \
    --member="serviceAccount:SERVICE_ACCOUNT_ID" \
    --role=roles/secretmanager.secretaccessor
gcloud projects add-iam-policy-binding PROJECT_ID \
    --member="serviceAccount:SERVICE_ACCOUNT_ID" \
    --role=roles/storage.objectUser \
    --condition=resource.name.startsWith('projects/_/buckets/BUCKET_ID')
gcloud artifacts repositories add-iam-policy-binding REPOSITORY \
    --location=REPOSITORY_LOCATION \
    --member=SERVICE_ACCOUNT_ID} \
    --role=roles/artifactregistry.reader

מחליפים את מה שכתוב בשדות הבאים:

‫SECRET_ID: המזהה של הסוד שבו מאוחסנים פרטי הכניסה למקור הנתונים. הפורמט הוא projects/PROJECT_ID/secrets/SECRET_ID.
‫BUCKET_ID: שם הקטגוריה ב-Cloud Storage.
‫REPOSITORY: מאגר Artifact Registry שמכיל את תמונת המחבר.
‫REPOSITORY_LOCATION: המיקום שבו המאגר מתארח. Google Cloud

מקצים לחשבון השירות שמריץ את Workflows את התפקיד roles/iam.serviceAccountUser בחשבון השירות שמריץ את משימות האצווה של Serverless for Apache Spark. צריך להקצות את התפקיד הזה גם אם משתמשים באותו חשבון שירות גם ב-Workflows וגם ב-Serverless for Apache Spark.
```
gcloud iam service-accounts add-iam-policy-binding \
    serviceAccount:SERVICE_ACCOUNT_ID \
    --member='SERVICE_ACCOUNT_ID' \
    --role='roles/iam.serviceAccountUser'
```
אם משתמשים בחשבונות שירות שונים, הערך של הדגל --member הוא חשבון השירות שמריץ את משימות האצווה של Serverless for Apache Spark.
אם רוצים לתזמן את צינור עיבוד הנתונים, צריך להקצות לחשבון השירות את התפקיד הבא:
```
gcloud projects add-iam-policy-binding PROJECT_ID \
 --member="SERVICE_ACCOUNT_ID" \
 --role=roles/workflows.invoker
```