יצירת מוצרי נתונים

המסמך הזה מיועד לבעלי מוצרי נתונים שרוצים ליצור ולהגדיר מוצרי נתונים ב-Dataplex Universal Catalog.

מידע נוסף על הארכיטקטורה ומושגי המפתח של מוצרי נתונים זמין במאמר מידע על מוצרי נתונים.

לפני שמתחילים

  1. Enable the Dataplex, BigQuery APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  2. מוודאים שנכסי הנתונים (לדוגמה, מערכי נתונים, טבלאות ותצוגות מפורטות של BigQuery) נוצרו ואוכלסו.

    מידע נוסף על יצירת נכסי נתונים זמין במאמרים הבאים:

  3. מזהים או יוצרים את קבוצות Google שרוצים להגדיר במוצר הנתונים. לכל מוצר נתונים צריכה להיות קבוצת Google ייחודית.

התפקידים הנדרשים

בקטע הזה מפורטים תפקידי ה-IAM המינימליים שנדרשים לשתי קבוצות משתמשים עיקריות: בעלי מוצרי נתונים (אלה שיוצרים ומנהלים מוצרי נתונים) וצרכני מוצרי נתונים (אלה שמחפשים ומשתמשים במוצרי נתונים).

תפקידים של בעלי מוצר נתונים

כדי לקבל את ההרשאות שדרושות ליצירה ולניהול של מוצרי נתונים, צריך לבקש מהאדמין להקצות לכם את תפקידי ה-IAM הבאים בפרויקט:

להסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.

התפקידים המוגדרים מראש האלה כוללים את ההרשאות שנדרשות ליצירה ולניהול של מוצרי נתונים. כדי לראות בדיוק אילו הרשאות נדרשות, אפשר להרחיב את הקטע ההרשאות הנדרשות:

ההרשאות הנדרשות

כדי ליצור ולנהל מוצרי נתונים, נדרשות ההרשאות הבאות:

  • עורכים את סוג היחס של המערכת overview: dataplex.entryGroups.useOverviewAspect
  • עורכים את סוג היחס של המערכת refresh cadence: dataplex.entryGroups.useRefreshCadenceAspect

יכול להיות שתקבלו את ההרשאות האלה באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש אחרים.

תפקידים של צרכן של מוצר נתונים

כדי שצרכני מוצרי הנתונים יוכלו לחפש מוצרי נתונים, להציג אותם ולבקש גישה אליהם, אתם צריכים לוודא שמוצר הנתונים ניתן לגילוי. כדי לעשות את זה, צריך להקצות לצרכני מוצר הנתונים את תפקידי ה-IAM הבאים במוצר הנתונים:

  • חיפוש מוצרי נתונים וגישה אליהם בחיפוש ב-Dataplex Universal Catalog: Dataplex Data Product Consumer (dataplex.dataProductsConsumer)
  • גישת קריאה בלבד לצפייה בהגדרות של מוצרי נתונים ובמטא-נתונים: Dataplex Data Product Viewer (dataplex.dataProductsViewer)
  • בקשת גישה למוצרי נתונים: Dataplex Data Product Consumer (dataplex.dataProductsConsumer)

יצירה והגדרה של מוצר נתונים

יצירת מוצר נתונים כוללת את המשימות הכלליות הבאות:

  1. יצירת מוצר נתונים

    בשלב הראשוני הזה, שהוא חובה, צריך להגדיר פרטים בסיסיים כמו שם ייחודי של מוצר הנתונים, תיאור, האזור שבו נוצר מוצר הנתונים ופרטי הבעלים.

  2. אופציונלי: הוספת נכסים

    בשלב הזה בוחרים את הנכסים שרוצים לכלול במוצר הנתונים. מגבלה חשובה היא שהנכסים חייבים להיות באותו אזור כמו מוצר הנתונים עצמו. אפשר להוסיף עד 10 נכסים למוצר נתונים.

    רשימת הנכסים הנתמכים זמינה במאמר נכסים נתמכים.

  3. אופציונלי: הגדרת קבוצות גישה והרשאות לנכסים

    בשלב הזה, שהוא אופציונלי, יוצרים קבוצות גישה כדי לפשט את בקרת הגישה. קבוצות הגישה האלה פועלות ככינויים ידידותיים למשתמש (לדוגמה, Analyst או Reader) לקבוצות Google הבסיסיות. לאחר מכן מקצים הרשאות על ידי בחירת תפקיד ספציפי ב-IAM ומיפוי שלו לקבוצת גישה לנכס ספציפי.

  4. אופציונלי: מוסיפים פרטים נוספים כמו חוזים, היבטים ומסמכים

    בשלב האופציונלי הזה משפרים את ניהול הנתונים והמטא-נתונים. אפשר להוסיף חוזה, שהוא סוג של היבט צד ראשון, כדי להעביר באופן רשמי את קצב הרענון המוסכם של הנתונים, ולציין פרמטרים כמו תדירות הרענון, זמן הרענון וערך הסף. אתם יכולים לכלול גם מאפיינים כדי לספק מטא-נתונים נוספים למוצר הנתונים. בנוסף, אפשר להוסיף מסמכי תיעוד בפורמט טקסט עשיר, כמו מדריכים למשתמשים ושאילתות לדוגמה.

כדי ליצור מוצר נתונים ולהגדיר אותו, מבצעים את השלבים שמפורטים בקטעים הבאים:

יצירת מוצר נתונים

המסוף

  1. במסוף Google Cloud , עוברים לדף Data products בקטלוג האוניברסלי של Dataplex.

    מעבר אל 'מוצרי נתונים'

  2. לוחצים על יצירה.

  3. בחלונית Create data products, מזינים את הפרטים הבאים:

    • שם מוצר הנתונים: מזינים שם ייחודי למוצר הנתונים.
    • מזהה מוצר הנתונים: זהו מזהה ייחודי שנוצר באופן אוטומטי. אפשר לערוך את השדה הזה.
    • מזהה הפרויקט: זהו מזהה ייחודי של הפרויקט שבו נוצר מוצר הנתונים. מאתרים את הפרויקט ובוחרים אותו.
    • Region: בוחרים את האזור או את מספר האזורים שבהם נוצר מוצר הנתונים.
    • סמל: מעיינים בסמלים ובוחרים סמל שיעזור לזהות את מוצר הנתונים. הפעולה הזאת אופציונלית.
    • תיאור: מזינים תיאור קצר של מוצר הנתונים.
    • אנשי קשר: מזינים את מזהה האימייל של הבעלים של מוצר הנתונים.
    • תוויות: מוסיפים תוויות של צמדי מפתח/ערך כדי לארגן את המשאבים. הפעולה הזו אופציונלית.
  4. לוחצים על יצירת מוצר נתונים.

REST

כדי ליצור מוצר נתונים, משתמשים ב-method‏ dataProducts.create.

לדוגמה, שולחים את הבקשה הבאה POST:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"display_name": "DISPLAY_NAME", "owner_emails": ["EMAIL_IDs"]}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts?data_product_id=DATA_PRODUCT_ID

מחליפים את מה שכתוב בשדות הבאים:

  • DISPLAY_NAME: שם ידידותי למשתמש למוצר הנתונים
  • EMAIL_IDs: מזהי האימייל של הבעלים של מוצר הנתונים, מופרדים בפסיקים
  • PROJECT_ID: מזהה הפרויקט ב- Google Cloud
  • LOCATION: האזור שבו רוצים ליצור את מוצר הנתונים
  • DATA_PRODUCT_ID: מזהה ייחודי של מוצר הנתונים

אופציונלי: הוספת נכסים

המסוף

  1. בחלונית הוספת נכסים, לוחצים על +הוספה.

  2. מחפשים את הנכסים שרוצים להוסיף למוצר הנתונים ובוחרים אותם. הנכסים שאתם בוחרים צריכים להיות באותו אזור כמו מוצר הנתונים.

    אם יש לכם את ההרשאות הדרושות, אתם יכולים ללחוץ על הנכס כדי לראות את המטא-נתונים שלו.

  3. כדי למקד את תוצאות החיפוש, משתמשים במסננים.

  4. אחרי שבוחרים את הנכסים, לוחצים על הוספה.

  5. לוחצים על Continue.

REST

כדי להוסיף נכס נתונים למוצר הנתונים, משתמשים בשיטה dataAssets.create.

לדוגמה, שולחים את הבקשה הבאה POST:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"resource": "RESOURCE_NAME"}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts/DATA_PRODUCT_ID/dataAssets?data_asset_id=DATA_ASSET_ID

מחליפים את מה שכתוב בשדות הבאים:

  • RESOURCE_NAME: שם המשאב המלא של נכס הנתונים (לדוגמה, //bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID)
  • PROJECT_ID: מזהה הפרויקט ב- Google Cloud
  • LOCATION: האזור שבו קיים מוצר הנתונים
  • DATA_PRODUCT_ID: המזהה של מוצר הנתונים
  • DATA_ASSET_ID: מזהה ייחודי של נכס הנתונים הזה במוצר הנתונים

אופציונלי: הגדרת קבוצות גישה והרשאות לנכסים

בחלונית Configure access groups and asset permissions (הגדרת קבוצות גישה והרשאות לנכסים), אפשר ליצור קבוצות גישה ולהקצות הרשאות לנכסים.

הגדרת קבוצות גישה

המסוף

  1. לוחצים על הוספת קבוצת גישה.

  2. בשדה שם קבוצת הגישה, מזינים שם לקבוצת הגישה. לדוגמה, Analyst.

  3. בשדה Access group description (תיאור קבוצת הגישה), מזינים תיאור לקבוצת הגישה.

  4. בשדה מזהה קבוצת הגישה, מזינים את כתובת האימייל של קבוצת Google שרוצים להקצות לקבוצת הגישה הזו. משתמשים במוצרי נתונים שמבקשים גישה לקבוצת הגישה הזו יכולים להתווסף כחברים לקבוצת Google הממופה.

    אם אין לכם קבוצת Google, אתם יכולים ליצור אחת. מידע נוסף זמין במאמר בנושא יצירה וניהול של קבוצות Google במסוף Google Cloud .

  5. לוחצים על הוספה.

REST

כדי להגדיר קבוצת גישה למוצר הנתונים, משתמשים בשיטה dataProducts.patch.

לדוגמה, שולחים את הבקשה הבאה PATCH:

curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"access_groups": ACCESS_GROUPS_MAP}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts/DATA_PRODUCT_ID?update_mask="access_groups"

מחליפים את מה שכתוב בשדות הבאים:

  • ACCESS_GROUPS_MAP: אובייקט JSON שמייצג מיפוי שבו כל מפתח הוא מזהה של קבוצת גישה, והערך הוא אובייקט AccessGroup. לדוגמה:

    {
    "analyst": {
      "id": "analyst","display_name": "Analyst access group","description": "Access group for analysts","principal":
    {"google_group": "analyst-team@example.com"}
      }
    }
    
  • PROJECT_ID: מזהה הפרויקט ב- Google Cloud

  • LOCATION: האזור שבו קיים מוצר הנתונים

  • DATA_PRODUCT_ID: המזהה של מוצר הנתונים

הגדרת הרשאות גישה לנכסים

אחרי שמגדירים קבוצות גישה, אפשר להגדיר הרשאות לנכסים במוצר הנתונים.

המסוף

  1. בקטע הרשאות לנכס, בוחרים את הנכס שרוצים להגדיר לו הרשאות.

  2. לוחצים על הגדרת הרשאות.

  3. בשדה בחירת קבוצת גישה, בוחרים קבוצת גישה.

  4. בשדה Assign IAM role, בוחרים תפקיד IAM שרוצים להקצות לקבוצת הגישה.

    לדוגמה, אם הנכס הוא טבלה ב-BigQuery בשם Sales, ואם בחרתם בקבוצת הגישה Analyst והקציתם לה את התפקיד BigQuery Metadata Viewer, לצרכני מוצר הנתונים שחברים בקבוצת הגישה Analyst יש הרשאת BigQuery Metadata Viewer בטבלה Sales.

    אפשר להוסיף כמה תפקידים לנכס.

  5. לוחצים על Configure (הגדרה). עכשיו מוצגות ההרשאות שהוקצו לנכס.

  6. כדי להגדיר הרשאות לנכסים אחרים, חוזרים על השלבים.

  7. לוחצים על Continue.

REST

כדי להגדיר הרשאות לנכסים במוצר הנתונים, משתמשים ב-method ‏dataAssets.patch.

לדוגמה, שולחים את הבקשה הבאה PATCH:

curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"access_group_configs": ACCESS_GROUP_CONFIGS_MAP}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts/DATA_PRODUCT_ID/dataAssets/DATA_ASSET_ID?update_mask="access_group_configs"

מחליפים את מה שכתוב בשדות הבאים:

  • ACCESS_GROUP_CONFIGS_MAP: אובייקט JSON שמייצג מפה שבה כל מפתח הוא מזהה של קבוצת גישה, והערך הוא אובייקט AccessGroupConfig. לדוגמה:

    {
    "analyst": {
      iam_roles: ["roles/bigquery.dataViewer"]
      }
    }
    
  • PROJECT_ID: מזהה הפרויקט ב- Google Cloud

  • LOCATION: האזור שבו קיים מוצר הנתונים

  • DATA_PRODUCT_ID: המזהה של מוצר הנתונים

  • DATA_ASSET_ID: המזהה של הנכס שעבורו רוצים להגדיר הרשאות

אופציונלי: הוספת פרטים נוספים

אפשר גם להוסיף חוזים, היבטים ומסמכים נוספים למוצר הנתונים.

הוספת חוזה

כדי ליצור בסיס של אמון בין צרכני הנתונים לבין מי שמפיקים אותם, אפשר לצרף חוזה למוצר הנתונים. כשמציינים פרמטרים כמו זמן רענון וערכי סף, מספקים לצרכנים את ההקשר הדרוש כדי להבין מתי הנתונים מתעדכנים והאם הם עומדים בדרישות העסקיות הספציפיות שלהם.

המסוף

  1. בחלונית Add additional details (הוספת פרטים נוספים), לוחצים על Add contract (הוספת חוזה).

  2. בשדה Select contract (בחירת חוזה), בוחרים באפשרות Refresh cadence.

  3. בשדה תדירות, בוחרים לוח זמנים מוסכם לעדכון או למסירה של הנתונים, כדי להבטיח זרימה צפויה מהגורם שמפיק את הנתונים אל הגורם שמשתמש בהם. לדוגמה, Weekly.

  4. בשדה זמן רענון, מזינים את הזמן המקסימלי המקובל שחולף מרגע עדכון הנתונים במקור ועד שהם זמינים לצרכן. לדוגמה, 23:00 PST.

  5. בשדה סף (בדקות), מזינים מגבלה מדידה בדקות של העיכוב המקסימלי שנסבל במסירת הנתונים. לדוגמה, מזינים 30 כדי להגדיר את סף הזמן ל-30 דקות.

  6. אופציונלי: בשדה Cron schedule (תזמון cron), מזינים ביטוי cron שמגדיר את לוח הזמנים ליצירה ולמסירה של נתונים בפורמט: MINUTE HOUR DAY_OF_MONTH MONTH DAY_OF_WEEK

    אלה הערכים הקבילים:

    • MINUTE: 0-59
    • HOUR: 0-23
    • DAY_OF_MONTH: 1-31
    • MONTH: 1-31 או JAN-DEC
    • DAY_OF_WEEK: 0-6 או SUN-SAT

    לדוגמה, 0 8 * * 1-5 פועל בשעה 8:00 בבוקר בימי חול (שני עד שישי).

  7. לוחצים על Save.

REST

החוזים מוגדרים כמאפיינים במוצר הנתונים. כדי להוסיף Refresh Cadenceחוזה למוצר נתונים, משתמשים בשיטה entries.patch.

לדוגמה, שולחים את הבקשה הבאה PATCH:

curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d \
'{
  "aspects": {
    "dataplex-types.global.refresh-cadence": {
      "aspectType": "projects/dataplex-types/locations/global/aspectTypes/refresh-cadence",
      "data": {
        "frequency": "REFRESH_FREQUENCY"
      }
    }
  }
}' \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@dataplex/entries/projects/DATA_PRODUCT_PROJECT_NUMBER/locations/DATA_PRODUCT_LOCATION/dataProducts/DATA_PRODUCT_ID?updateMask=aspects"

מחליפים את מה שכתוב בשדות הבאים:

  • REFRESH_FREQUENCY: לוח הזמנים המוסכם לעדכון או למסירת הנתונים, כדי להבטיח זרימה צפויה מהגורם שמפיק את הנתונים אל הגורם שמשתמש בהם. לדוגמה: Weekly
  • PROJECT_ID: המזהה של Google Cloud הפרויקט שבו מתבצעת הקריאה ל-API
  • LOCATION: האזור של נקודת הקצה בשירות Dataplex Universal Catalog שאליו מתבצעת הקריאה (לדוגמה, us-central1)
  • DATA_PRODUCT_PROJECT_NUMBER: מספר הפרויקט שבו נמצא משאב מוצר הנתונים
  • DATA_PRODUCT_LOCATION: המיקום של משאב מוצר הנתונים
  • DATA_PRODUCT_ID: המזהה של מוצר הנתונים

הוספת מטא-נתונים

כדי להוסיף מטא-נתונים נוספים למוצר הנתונים כהיבטים, פועלים לפי השלבים הבאים:

המסוף

  1. בחלונית הוספת פרטים נוספים, לוחצים על + הוספת היבט.

  2. בשדה בחירת סוג היבט, מחפשים סוג היבט ובוחרים אותו מהרשימה. לדוגמה, Geo context.

  3. בשדה מדינה בוחרים את המדינה שאליה משויך הנכס.

  4. בשדה Region, בוחרים את האזור העסקי שאליו שייך הנכס.

  5. לוחצים על Save.

  6. כדי להוסיף מסמכים נוספים כמו מדריך למשתמש או שאילתות לדוגמה, לוחצים על עריכה לצד תיעוד. ייפתח כלי לעריכת טקסט עשיר. מוסיפים תוכן ולוחצים על שמירה.

  7. לוחצים על Save.

    מוצר הנתונים החדש שנוצר יופיע בדף Data products (מוצרי נתונים) ב-Dataplex Universal Catalog.

REST

כדי להוסיף היבטים ומסמכים למוצר נתונים, משתמשים בשיטה entries.patch.

התיעוד של מוצר נתונים מנוהל באמצעות סוג ההיבט של המערכת overview.

מידע נוסף על היבטים זמין במאמר היבטים.

המאמרים הבאים