עיבוד נתונים באמצעות Cloud Data Fusion

Cloud Data Fusion מספק פלאגין של מקור Dataplex Universal Catalog לקריאת נתונים מישויות (טבלאות) של Dataplex Universal Catalog שנמצאות בנכסי Cloud Storage או BigQuery. התוסף Dataplex Universal Catalog Source מאפשר לכם להתייחס לנתונים בנכסי Cloud Storage כאל טבלאות ולסנן את הנתונים באמצעות שאילתות SQL.

לפני שמתחילים

  • יוצרים מכונת Cloud Data Fusion, אם אין לכם מכונה כזו. התוסף הזה זמין במכונות שפועלות ב-Cloud Data Fusion מגרסה 6.6 ואילך.

  • נתוני המקור צריכים להיות כבר חלק מאזור ונכס (קטגוריה של Cloud Storage או מערך נתונים ב-BigQuery) ב-Dataplex Universal Catalog.

  • כדי להשתמש בטבלאות מ-Cloud Storage, צריך להגדיר מאגר מטא נתונים לאגם.

  • כדי לקרוא נתונים מישויות של Cloud Storage, צריך לצרף את Dataproc Metastore לאגם.

  • אין תמיכה בנתוני CSV בישויות של Cloud Storage.

  • בפרויקט Dataplex Universal Catalog, מפעילים את גישה פרטית ל-Google ברשת המשנה, שבדרך כלל מוגדרת ל-default, או מגדירים את internal_ip_only ל-false.

מגבלות

  • לגבי נכסים ב-Cloud Storage: הפלאגין הזה לא תומך בקריאה מקובצי CSV. הוא תומך בקריאה מפורמטים של JSON,‏ Avro,‏ Parquet ו-ORC.

  • לגבי נכסים ב-Cloud Storage: העמודות תאריך התחלה של המחיצה ותאריך הסיום של המחיצה לא רלוונטיות.

התפקידים הנדרשים

כדי לקבל את ההרשאות שדרושות לניהול תפקידים, אתם צריכים לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בסוכן השירות של Dataproc ובסוכן השירות של Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.

הוספת הפלאגין לצינור העיבוד

  1. נכנסים לדף Instances של Cloud Data Fusion במסוף Google Cloud .

    כניסה לדף Instances

    בדף הזה אפשר לנהל את המופעים.

  2. לוחצים על View instance (הצגת המכונה) כדי לפתוח את המכונה בממשק המשתמש של Cloud Data Fusion.

  3. עוברים לדף Studio, מרחיבים את התפריט מקור ולוחצים על Dataplex.

הגדרת הפלאגין

אחרי שמוסיפים את הפלאגין הזה לצינור העברת הנתונים בדף Studio, לוחצים על מקור Dataplex Universal Catalog כדי להגדיר את המאפיינים שלו.

מידע נוסף על הגדרות זמין במאמר בנושא מקור Dataplex.

אופציונלי: התחלת העבודה עם צינור לדוגמה

יש צינורות לדוגמה, כולל צינור מקור SAP לצינור יעד Dataplex Universal Catalog וצינור מקור Dataplex Universal Catalog לצינור יעד BigQuery.

כדי להשתמש בצינור עיבוד נתונים לדוגמה, פותחים את המופע בממשק המשתמש של Cloud Data Fusion, לוחצים על Hub > Pipelines ובוחרים באחד מצינורות עיבוד הנתונים של Dataplex Universal Catalog. תיפתח תיבת דו-שיח שתעזור לכם ליצור את צינור הנתונים.

המאמרים הבאים