אתם יכולים להשתמש ב-Dataplex Universal Catalog כדי ליצור ארכיטקטורת רשת נתונים. במדריך למתחילים הזה מוסבר איך להשתמש בתכונות של Dataplex Universal Catalog, כמו אגם, אזורים ונכסים, כדי ליצור רשת נתונים.
Data mesh היא גישה ארגונית וטכנית שמבזרת את הבעלות על הנתונים בין בעלי נתונים בדומיין. הבעלים האלה מספקים את הנתונים כמוצר בצורה סטנדרטית, ומאפשרים תקשורת בין חלקים שונים בארגון כדי להפיץ מערכי נתונים במיקומים שונים. מידע נוסף על ארכיטקטורות של רשת נתונים
מטרות
במדריך הזה משתמשים בישויות של Dataplex Universal Catalog כדי לבנות ארכיטקטורת רשת נתונים:
- יוצרים אגם Dataplex Universal Catalog שמשמש כדומיין של רשת הנתונים.
- מוסיפים לאגם אזורים שמייצגים צוותים ספציפיים בכל דומיין, ומספקים חוזי נתונים מנוהלים.
- מצרפים נכסים שממופים לנתונים שמאוחסנים ב-Cloud Storage.
עלויות
במסמך הזה משתמשים ברכיבים הבאים של Google Cloud, והשימוש בהם כרוך בתשלום:
כדי ליצור הערכת עלויות בהתאם לשימוש החזוי, אפשר להשתמש במחשבון התמחור.
כשמסיימים את המשימות שמתוארות במסמך הזה אפשר למחוק את המשאבים שיצרתם כדי להימנע מחיובים נוספים. מידע נוסף זמין בקטע הסרת המשאבים.
לפני שמתחילים
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataplex API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.
יצירת קטגוריה של Cloud Storage
אתם צריכים קטגוריה של Cloud Storage כדי לאחסן את נכסי הנתונים של רשת הנתונים.
כדי ליצור קטגוריה של Cloud Storage, פועלים לפי ההוראות ליצירת קטגוריה של Cloud Storage. כשעושים את זה, חשוב לשים לב לנקודות הבאות:
- נותנים שם לקטגוריה.
- בשדה Location type, בוחרים באפשרות Region ובתפריט בוחרים באפשרות us-central1 (Iowa).
יצירת דומיין
במסוף Google Cloud , נכנסים לדף Lakes בקטלוג האוניברסלי של Dataplex.
כדי ליצור אגם חדש שמשמש כרשת נתונים, לוחצים על יצירה.
בשדה השם המוצג, מזינים
My data mesh.בשדה אזור, בוחרים באפשרות
us-central1.בוחרים את שירות Dataproc Metastore שיצרתם והגדרתם קודם בתור מאגר המטא-נתונים המשויך.
לוחצים על יצירה.
יצירת אזורים באגם
אחרי שיוצרים דומיין על ידי יצירת אגם של Dataplex Universal Catalog, אפשר לארח חוזי נתונים מנוהלים וצוותים נפרדים בדומיין באמצעות אזורים. יש שני סוגים של אזורים:
בדרך כלל משתמשים באזורים גולמיים כדי לאחסן נתונים בכל פורמט ממקורות חיצוניים ב-Cloud Storage. אזורים גולמיים שימושיים לנתונים שנדרש עיבוד נוסף שלהם לפני שהם מוכנים לשימוש.
אזורים מנוהלים משמשים לנתונים מובְנים ב-Cloud Storage שצריכים להיות בפורמטים מסוימים של קבצים, והם מאורגנים בפריסת ספריות שתואמת ל-Hive. הם הכי שימושיים לנתונים שמוכנים לצריכה ולניתוח.
לכל דומיין (לדוגמה, sales, customers, products) צריכים להיות לפחות תחום גולמי ותחום לאחסון נתונים מובְנים.
אזורים נוספים משמשים לניהול חוזי נתונים בין צוותים או כדי לספק פירוט מדויק יותר לצוותים בדומיין נתון. לדוגמה, ניהול מלאי במסגרת תחום המוצרים. בעלי הנתונים יכולים לנהל את הנתונים בדומיין שלהם ולגשת אליהם.
במסוף Google Cloud , עוברים לתצוגה Manage של Dataplex Universal Catalog.
לוחצים על שם האגם (
My data mesh) שרוצים להוסיף לו אזור.בכרטיסייה אזורים, לוחצים על הוספת אזור.
בשדה השם המוצג, מזינים
My sub domain. Dataplex Universal Catalog יוצר מזהה באופן אוטומטי לאזור שלכם.בשדה Type, בוחרים באפשרות Raw zone.
לוחצים על יצירה.
צירוף נכסים לאזורים
מצרפים נכסי נתונים לאזור. נכס נתונים, משאבי האחסון שמכילים את הנתונים שלכם, יכול להיות קטגוריה של Cloud Storage או מערך נתונים ב-BigQuery. זה השלב האחרון ביצירת ארכיטקטורת רשת הנתונים.
בתצוגה Manage (ניהול) של Dataplex Universal Catalog, לוחצים על האגם שיצרתם (
My data mesh).בכרטיסייה אזורים, לוחצים על האזור (
My sub domain) שאליו רוצים להוסיף את הנכס.בכרטיסייה נכסים, לוחצים על הוספת נכסים.
לוחצים על הוספת נכס.
בשדה Type, בוחרים באפשרות קטגוריה של Cloud Storage.
בשדה השם המוצג , מזינים
Data mesh asset. Dataplex Universal Catalog יוצר בשבילכם מזהה נכס באופן אוטומטי.בשדה Bucket (מאגר), לוחצים על Browse (עיון).
- בוחרים את הדלי מהרשימה.
- לוחצים על בחירה.
לוחצים על Done (סיום) ואז על Continue (המשך).
לוחצים על המשך כדי לאשר את ההגדרות המתקדמות שמוגדרות כברירת מחדל.
לוחצים על שליחה.
הסרת המשאבים
כדי לא לצבור חיובים לחשבון Google Cloud על המשאבים שבהם השתמשתם במדריך הזה, אתם יכולים למחוק את הפרויקט שמכיל את המשאבים או להשאיר את הפרויקט ולמחוק את המשאבים בנפרד.
מחיקת הפרויקט
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
מחיקת ארכיטקטורת רשת הנתונים
במסוף Google Cloud , עוברים לתצוגה Manage של Dataplex Universal Catalog.
לוחצים על View more (הצגת פרטים נוספים) לצד האגם שרוצים למחוק, ואז לוחצים על Delete (מחיקה).
כדי לאשר את הפעולה, מזינים
deleteולוחצים על מחיקת האגם.