בארגונים יש נתונים שמפוזרים לעיתים קרובות באגמי נתונים, במחסני נתונים ובמרכזי נתונים. הקטלוג האוניברסלי של Dataplex הוא מארג נתונים (data fabric) שמאחד נתונים מבוזרים ומקלה על משילות מידע (data governance) באמצעות החלת מבנים לוגיים על נכסי נתונים שונים.
הקטלוג האוניברסלי של Dataplex מסתיר את מערכות אחסון הנתונים הבסיסיות באמצעות המבנים הבאים: אגמים, אזורים, נכסים ורשומות.
אגמים
אגם הוא מבנה לוגי שמייצג תחום נתונים או יחידה עסקית. לדוגמה, כדי לארגן את הנתונים לפי השימוש בקבוצה, אפשר להגדיר אגם לכל מחלקה (לדוגמה, קמעונאות, מכירות, כספים).
תחומים
תחום (zone) הוא תת-דומיין באגם, והוא שימושי לסיווג נתונים לפי:
- שלב: לדוגמה, נחיתה, נתונים גולמיים, ניתוח נתונים שנאספו ומדע נתונים שנאספו
- שימוש: לדוגמה, חוזה נתונים
- הגבלות: לדוגמה, אמצעי בקרת אבטחה ורמות גישה של משתמשים
יש שני סוגים של אזורים:
אזור גולמי: מכיל נתונים בפורמט הגולמי שלהם, שלא עוברים בדיקת סוגים קפדנית.
תחום לאחסון נתונים מובְנים (Curated zone): מכיל נתונים שעברו ניקוי ועיצוב ומוכנים לניתוח. הנתונים הם עמודתיים, מחולקים למחיצות ב-Hive ומאוחסנים בקובצי Parquet, Avro, Orc או בטבלאות BigQuery. הנתונים עוברים בדיקת סוג – לדוגמה, כדי למנוע שימוש בקובצי CSV כי הם לא מתאימים לגישת SQL.
נכסים
נכס ממופה לנתונים שמאוחסנים ב-Cloud Storage או ב-BigQuery. אפשר למפות נתונים שמאוחסנים בפרויקטים נפרדים כנכסים לאזור יחיד. Google Cloud
דפים
יישות מייצגת מטא נתונים של נתונים מובְנים ונתונים חצי מובְנים (לדוגמה, טבלה), ונתונים לא מובְנים (לדוגמה, קבוצת קבצים).
המאמרים הבאים
- ארגון הנתונים באגמים (data lakes) ובתחומים (zones).
- אבטחת האגם
- צפייה במטא-נתונים שזוהו באמצעות מסוף Google Cloud
- איך צופים במטא-נתונים שזוהו באמצעות ה-API