העברת נתונים באמצעות Cloud Data Fusion

Cloud Data Fusion מספק תוסף Dataplex Universal Catalog Sink להטמעת נתונים בכל אחד מהנכסים הנתמכים ב-Dataplex Universal Catalog.

לפני שמתחילים

  • אם אין לכם מכונת Cloud Data Fusion, אתם צריכים ליצור אחת. התוסף הזה זמין במופעים שפועלים ב-Cloud Data Fusion מגרסה 6.6 ואילך. מידע נוסף זמין במאמר יצירת מכונה ציבורית של Cloud Data Fusion.
  • מערך הנתונים ב-BigQuery או קטגוריה של Cloud Storage שאליהם מתבצעת ההזנה צריכים להיות חלק מאגם של Dataplex Universal Catalog.
  • כדי לקרוא נתונים מישויות של Cloud Storage, צריך לצרף את Dataproc Metastore לאגם.
  • אין תמיכה בנתוני CSV בישויות של Cloud Storage.
  • בפרויקט Dataplex Universal Catalog, מפעילים את גישה פרטית ל-Google ברשת המשנה, שבדרך כלל מוגדרת ל-default, או מגדירים את internal_ip_only ל-false.

התפקידים הנדרשים

כדי לקבל את ההרשאות שנדרשות לניהול תפקידים, אתם צריכים לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בסוכן השירות של Dataproc ובסוכן השירות של Cloud Data Fusion ‏ (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.

הוספת הפלאגין לצינור העיבוד

  1. נכנסים לדף Instances של Cloud Data Fusion במסוף Google Cloud .

    כניסה לדף Instances

    בדף הזה אפשר לנהל את המופעים.

  2. כדי לפתוח את המכונה, לוחצים על View instance (הצגת המכונה).

  3. עוברים לדף Studio, מרחיבים את התפריט Sink ולוחצים על Dataplex.

הגדרת הפלאגין

אחרי שמוסיפים את הפלאגין הזה לצינור העברת הנתונים בדף Studio, לוחצים על Dataplex Universal Catalog sink (יעד של קטלוג אוניברסלי של Dataplex) כדי להגדיר את המאפיינים שלו ולשמור אותם.

מידע נוסף על הגדרות זמין במאמר בנושא Dataplex Sink.

אופציונלי: התחלת העבודה עם צינור לדוגמה

יש צינורות לדוגמה, כולל צינור מקור SAP לצינור יעד Dataplex Universal Catalog וצינור מקור Dataplex Universal Catalog לצינור יעד BigQuery.

כדי להשתמש בצינור עיבוד נתונים לדוגמה, פותחים את המופע בממשק המשתמש של Cloud Data Fusion, לוחצים על Hub > Pipelines ובוחרים באחד מצינורות עיבוד הנתונים של Dataplex Universal Catalog. תיפתח תיבת דו-שיח שתעזור לכם ליצור את צינור הנתונים.

הפעלת הפייפליין

  1. אחרי פריסת צינור עיבוד הנתונים, פותחים אותו בדף Studio ב-Cloud Data Fusion.

  2. לוחצים על הגדרה > משאבים.

  3. אופציונלי: משנים את הערכים של Executor CPU ושל Memory בהתאם לגודל הנתונים הכולל ולמספר הטרנספורמציות שמשמשות בצינור.

  4. לוחצים על Save.

  5. כדי להפעיל את פייפליין הנתונים, לוחצים על הפעלה.

המאמרים הבאים