מידע על מוצרי נתונים

במסמך הזה מוסברים הארכיטקטורה והמושגים המרכזיים של מוצרי נתונים ב-Dataplex Universal Catalog.

מוצר נתונים הוא אוסף לוגי ומסודר של נכסי נתונים, שארוז באופן רשמי כדי להבטיח שאפשר יהיה לגלות אותו, לסמוך עליו ולגשת אליו. היכולות העיקריות של מוצר נתונים כוללות את הפעולות הבאות:

  • ארגון נכסי הקטלוג ביחידה לוגית שפותרת בעיה עסקית ספציפית ומאפשרת לקבל תובנות מהר יותר.
  • להפיץ עם הקשר שכולל תיאור, תיעוד והיבטים.
  • יצירת אמון באמצעות חוזים שמאפשרים למפיקי נתונים לספק הבטחה לצרכני נתונים.
  • מספקים תהליך עבודה בשירות עצמי לצרכני נתונים כדי להעריך מוצרי נתונים ולקבל גישה לנתונים.

מושגים מרכזיים

בקטע הזה מוסברים המושגים והמינוחים העיקריים שקשורים למוצרי נתונים.

מוצר נתונים

קיבוץ מובנה של נכסי נתונים, שמאורגנים באופן רשמי כדי שיהיה קל למצוא אותם, לסמוך עליהם ולגשת אליהם לצורך פתרון בעיות עסקיות ספציפיות.

נכס

מצביע למשאב נתונים פיזי, כמו מערך נתונים, טבלה או תצוגה ב-BigQuery. מוצר נתונים מכיל נכס אחד או יותר.

קבוצת גישה

בעלי מוצרי נתונים מגדירים קבוצות ב-Google, וצרכני מוצרי נתונים משתמשים בהן כדי לבקש גישה. הרשאות הנכסים מוקצות לקבוצות הגישה האלה.

קבוצות גישה מפשטות את ניהול ההרשאות של מוצר הנתונים. הן משמשות ככינויים ידידותיים למשתמש (כמו Reader או Analyst) לקבוצות IAM בסיסיות. כך בעלי מוצרי הנתונים יכולים להקצות הרשאות ברמה גבוהה, והצרכנים יכולים לבקש את רמת הגישה הנכונה.

בעלי מוצר נתונים או יוצר נתונים

האדם או הצוות שאחראים על יצירה וניהול של מוצרי נתונים. ההרשאה הזו כוללת ניהול של איכות, גישה ותיעוד.

משתמש במוצר נתונים

האדם, הצוות או סוכן ה-AI שמשתמשים במוצרי נתונים כדי ליצור תובנות.

חוזה

הסכם בין הבעלים של מוצר הנתונים לבין הצרכנים שלו. ההסכם הזה מגדיר ציפיות ברורות על ידי הגדרת תנאים ספציפיים לגבי אופן אספקת הנתונים והשימוש בהם, כמו לוח הזמנים לעדכון שלהם ותקני האיכות.

תרחיש שימוש לדוגמה

נניח שמדען נתונים מנתח עסק של מסחר אלקטרוני. המטרה שלהם היא למצוא את ערך ההזמנה הממוצע (AOV) לפי מקור תנועה, ולבדוק אם יש קשר בין גיל המשתמש לבין גודל ההזמנה. כדי לעשות את זה, הם צריכים לשלב נתונים מכמה טבלאות, כמו order_details, user_traffic ו-user_demographic.

בהגדרה רגילה, התהליך הזה יוצר חיכוך. כדי ליצור תובנות, מדען הנתונים צריך קודם למצוא את הטבלאות הנכונות בתוך מערך הנתונים העצום של הארגון, ואז לפנות לכל בעל נתונים, להצדיק את בקשת הגישה שלו ולחכות לאישור.

בעזרת מוצרי נתונים, בעלי הנתונים יכולים לייעל את התהליך הזה על ידי אריזת הנכסים הרלוונטיים במוצר אחד בשם 'נתונים עסקיים של מסחר אלקטרוני'. החבילה הזו כוללת את הפריטים הבאים:

  • נכסים

    • טבלאות BigQuery‏ order_details ו-user_traffic (שמכילות נתוני היסטוריה של הזמנות ומקורות תנועה)
    • תצוגה מפורטת ב-BigQuery‏ user_demographics (כוללת פרטי משתמשים ללא פרטים אישיים מזהים)
  • קבוצות גישה

    • קבוצות מוגדרות מראש של Reader ושל Writer כדי לייעל את בקשות הגישה
  • חוזה

    • חוזה שמוגדרת בו תדירות עדכון הנתונים (לדוגמה, שבועי בשעה 8:00 בבוקר לפי שעון החוף המערבי)
  • הקשר

    • מסמכים עם שאילתות לדוגמה ופרטים נוספים
    • מטא-נתונים נוספים לתיאור רגישות הנתונים

מדעני נתונים יכולים עכשיו לגלות את מוצר הנתונים הזה כיחידה לוגית אחת. כך הם יכולים להפיק תובנות בביטחון כדי לענות על שאלות כמו 'מהו ערך ההזמנה הממוצע לכל מקור תנועה?' – ובסופו של דבר לגלות אילו מקורות מייצרים את הלקוחות עם הערך הכי גבוה.

מסלול המשתמש במוצר נתונים

מחזור החיים של מוצר הנתונים ב-Dataplex Universal Catalog כולל שני תהליכי משתמשים עיקריים: אחד לבעלים (או ליצרן) של מוצר הנתונים שיוצר ומנהל את הנתונים, ואחד לצרכן של מוצר הנתונים שמגלה ומשתמש בו.

המסע של הבעלים של מוצר נתונים

התהליך הזה מתמקד באריזה, באבטחה ובניהול של מוצרי הנתונים כדי לוודא שהם מהימנים ונגישים.

  • יצירה: הגדרת מוצר הנתונים והוספת נכסים. הפעולות הנדרשות הן:

    • מגדירים את השם הייחודי, הפרויקט, האזור והתיאור.
    • מוסיפים נכסים כמו טבלאות, מערכי נתונים או תצוגות של BigQuery.
    • מגדירים קבוצות גישה (לדוגמה, Analyst או Reader) וממפים אותן לקבוצות Google הבסיסיות כדי לפשט את ניהול ההרשאות.
    • מקצים לקבוצות הגישה האלה את תפקידי ה-IAM הנדרשים עבור הנכסים הספציפיים.
    • מוסיפים חוזה (היבט מערכתי) כדי להעביר באופן רשמי את קצב הרענון, התדירות והסף המוסכמים של הנתונים.

    מידע נוסף זמין במאמר יצירת מוצרי נתונים.

  • ניהול: עדכון של מוצר הנתונים ודאגה לכך שיהיה קל למצוא אותו. הפעולות שצריך לבצע:

    • עדכון פרטים בסיסיים, נכסים, הרשאות, היבטים משלימים (מטא-נתונים) ותיעוד בפורמט טקסט עשיר.
    • הענקת גישה לצרכנים כדי לגלות מוצרים של נתונים ולבקש גישה אליהם.

    מידע נוסף זמין במאמר בנושא ניהול מוצרי נתונים.

המסלול להמרת לקוח של מוצר נתונים

התהליך הזה מתמקד במציאת נתונים מהימנים במהירות ובהשגת ההרשאות הנדרשות לשימוש בהם.

  • גילוי: מציאת נתונים רלוונטיים ומהימנים לבעיה עסקית ספציפית. הפעולות שצריך לבצע:

    • משתמשים בחיפוש ב-Dataplex Universal Catalog עם מילות מפתח או שפה טבעית כדי למצוא את חבילת נתוני המוצר.
    • כדאי לעיין בסקירה הכללית של מוצר הנתונים, בנכסים, בחוזה ובהיבטים אחרים כדי להחליט אם הוא מתאים לשימוש.

    מידע נוסף זמין במאמר בנושא חיפוש מוצרי נתונים.

  • בקשת גישה: מבקשים מהבעלים של מוצר הנתונים הרשאה לגשת לנתונים.

    מידע נוסף זמין במאמר בנושא בקשת גישה למוצרי נתונים.

  • שימוש: גישה לנכסים הבסיסיים כדי ליצור תובנות. הפעולה הזו כוללת את השלבים הבאים:

    • אחרי האישור, תוכלו לגשת למוצר ולנכסים שלו. לדוגמה, אם הנכס הוא טבלה ב-BigQuery, אפשר לעבור ל-BigQuery Studio ולהריץ שאילתות על הנתונים ישירות.

    מידע נוסף זמין במאמר בנושא שימוש במוצרי נתונים.

נכסים נתמכים

מוצר נתונים יכול להיות מורכב מנכס נתונים אחד או יותר. בגרסת התצוגה המקדימה, יש תמיכה בנכסי הנתונים הבאים:

  • מערכי נתונים ב-BigQuery
  • טבלאות ב-BigQuery
  • תצוגות BigQuery

מגבלות

  • מוצרי נתונים והנכסים הבסיסיים שלהם צריכים להיות באותוGoogle Cloud מיקום.
  • מוצר נתונים יכול להכיל עד 10 נכסים.
  • אפשר ליצור עד 50 מוצרי נתונים לכל פרויקט בכל אזור.
  • מוצרי נתונים לא תומכים ב-VPC Service Controls.
  • שילוב של תהליך עבודה לבקשת אישור לא זמין בתצוגה מקדימה. עם זאת, צרכני מוצרי נתונים יכולים לבקש גישה על ידי הפעלת התראות באימייל לבעלי מוצרי הנתונים.

המאמרים הבאים