מידע על מוצרי נתונים

במסמך הזה מוסברים הארכיטקטורה והמושגים המרכזיים של מוצרי נתונים ב-Knowledge Catalog (לשעבר Dataplex Universal Catalog).

מוצר נתונים הוא אוסף לוגי ומסודר של נכסי נתונים, שארוז בצורה רשמית כדי להבטיח שאפשר יהיה לגלות אותו, לסמוך עליו ולגשת אליו. היכולות העיקריות של מוצר נתונים כוללות את הפעולות הבאות:

  • ארגון נכסי הקטלוג ביחידה לוגית שפותרת בעיה עסקית ספציפית ומאפשרת לקבל תובנות מהר יותר.
  • הפצה עם הקשר שכולל תיאור, תיעוד והיבטים.
  • יצירת אמון באמצעות חוזים שמאפשרים למפיקי נתונים לספק הבטחה לצרכני נתונים.
  • מספקים תהליך עבודה בשירות עצמי לצרכני נתונים כדי להעריך מוצרי נתונים ולקבל גישה לנתונים.

מושגים מרכזיים

בקטע הזה מוסברים המושגים והמינוחים העיקריים שקשורים למוצרי נתונים.

מוצר נתונים

קיבוץ הגיוני של נכסי נתונים, שמאורגנים בצורה רשמית כדי שיהיה אפשר לגלות אותם, לסמוך עליהם ולגשת אליהם כדי לפתור בעיות עסקיות ספציפיות.

נכס

מצביע למשאב נתונים פיזי, כמו מערך נתונים, טבלה או תצוגה ב-BigQuery. מוצר נתונים מכיל נכס אחד או יותר.

קבוצת גישה

קבוצות גישה מפשטות את ניהול ההרשאות של מוצר הנתונים. הם ממפים תפקידים ידידותיים למשתמש (כמו Reader או Analyst) לקבוצות Google או לחשבונות שירות בסיסיים. ההפשטה הזו מאפשרת לבעלי מוצרי נתונים לנהל את הגישה ברמה מושגית, ועוזרת לצרכני מוצרי נתונים לבקש את רמת הגישה המתאימה.

  • בעלי מוצר הנתונים מגדירים קבוצות גישה ומקצים להן הרשאות ספציפיות לנכסים.

  • המשתמשים במוצר הנתונים משתמשים בקבוצות האלה כדי לבקש גישה למוצר הנתונים.

בעלי מוצר נתונים או יוצר נתונים

האדם או הצוות שאחראים ליצירה ולניהול של מוצרי נתונים. זה כולל ניהול של איכות, גישה ותיעוד.

משתמש במוצר נתונים

הגורם (אדם, צוות או סוכן AI) שמשתמש במוצרי נתונים כדי ליצור תובנות.

חוזה

הסכם בין הבעלים של מוצר הנתונים לבין הצרכנים שלו. ההסכם הזה מגדיר ציפיות ברורות באמצעות הגדרת תנאים ספציפיים לגבי אופן אספקת הנתונים והשימוש בהם, כמו לוח הזמנים לעדכון וסטנדרטים של איכות.

תרחיש שימוש לדוגמה

נניח שמדען נתונים מנתח עסק של מסחר אלקטרוני. המטרה שלהם היא למצוא את ערך ההזמנה הממוצע (AOV) לפי מקור תנועה, ולבדוק אם יש קשר בין גיל המשתמש לבין גודל ההזמנה. כדי לעשות את זה, הם צריכים לשלב נתונים מכמה טבלאות, כמו order_details, user_traffic ו-user_demographics.

בהגדרה רגילה, התהליך הזה יוצר חיכוך. כדי ליצור תובנות, מדען הנתונים צריך קודם למצוא את הטבלאות הנכונות בתוך מערך הנתונים העצום של הארגון, ואז ליצור קשר עם כל בעל נתונים, להצדיק את בקשת הגישה שלו ולחכות לאישור.

בעזרת מוצרי נתונים, בעלי הנתונים יכולים לייעל את התהליך הזה על ידי אריזת הנכסים הרלוונטיים במוצר אחד בשם 'נתונים עסקיים של מסחר אלקטרוני'. החבילה הזו כוללת את הפריטים הבאים:

  • נכסים

    • טבלאות BigQuery‏ order_details ו-user_traffic (שמכילות נתונים היסטוריים של הזמנות ומקורות תנועה)
    • תצוגה מפורטת ב-BigQuery‏ user_demographics (כוללת פרטי משתמשים, ללא פרטים אישיים מזהים)
  • קבוצות גישה

    • קבוצות מוגדרות מראש Reader ו-Writer כדי לייעל את בקשות הגישה
  • חוזה

    • חוזה שמוגדרת בו תדירות עדכון הנתונים (לדוגמה, שבועי בשעה 8:00 בבוקר לפי שעון החוף המערבי)
  • הקשר

    • מסמכים עם שאילתות לדוגמה ופרטים נוספים
    • מטא-נתונים נוספים לתיאור רגישות הנתונים

מדעני נתונים יכולים עכשיו לגלות את מוצר הנתונים הזה כיחידה לוגית אחת. כך הם יכולים להפיק תובנות שיעזרו להם לענות על שאלות כמו 'מהו ערך ההזמנה הממוצע לכל מקור תנועה?' – ובסופו של דבר לגלות אילו מקורות תנועה מושכים את הלקוחות עם הערך הכי גבוה.

מסלול המשתמש במוצר נתונים

מחזור החיים של מוצר הנתונים ב-Knowledge Catalog כולל שני תהליכי משתמש עיקריים: אחד לבעלים (או ליצרן) של מוצר הנתונים שיוצר ומנהל את הנתונים, ואחד לצרכן של מוצר הנתונים שמגלה ומשתמש בו.

המסע של הבעלים של מוצר נתונים

התהליך הזה מתמקד באריזה, באבטחה ובניהול של מוצרי הנתונים כדי לוודא שהם מהימנים ונגישים.

  • יצירה: הגדרת מוצר הנתונים והוספת נכסים. התהליך כולל את הפעולות הבאות:

    • מגדירים את השם הייחודי, הפרויקט, האזור והתיאור.
    • מוסיפים נכסים כמו טבלאות, מערכי נתונים או תצוגות של BigQuery.
    • מגדירים קבוצות גישה (לדוגמה, Analyst או Reader) וממפים אותן לקבוצות Google או לחשבונות שירות בסיסיים כדי לפשט את ניהול ההרשאות.
    • מקצים לקבוצות הגישה האלה את תפקידי ה-IAM הנדרשים לנכסים הספציפיים.
    • מוסיפים חוזה (היבט מערכתי) כדי להעביר באופן רשמי את קצב הרענון, התדירות והסף המוסכמים של הנתונים.

    מידע נוסף זמין במאמר בנושא יצירת מוצרי נתונים.

  • ניהול: עדכון של מוצר הנתונים והבטחה של יכולת הגילוי שלו. זה כולל את הפעולות הבאות:

    • עדכון פרטים בסיסיים, נכסים, הרשאות, היבטים משלימים (מטא-נתונים) ותיעוד בפורמט טקסט עשיר.
    • הענקת גישה לצרכנים כדי לגלות מוצרים של נתונים ולבקש גישה אליהם.

    מידע נוסף מופיע במאמר בנושא ניהול מוצרי נתונים.

המסלול להמרת לקוח של מוצר נתונים

התהליך הזה מתמקד במציאת נתונים מהימנים במהירות ובהשגת ההרשאות הנדרשות לשימוש בהם.

  • חיפוש: מציאת נתונים רלוונטיים ואמינים לבעיה עסקית ספציפית. הפעולות שצריך לבצע:

    • משתמשים בחיפוש ב-Knowledge Catalog עם מילות מפתח או בשפה טבעית כדי למצוא את חבילת נתוני המוצר.
    • כדאי לעיין בסקירה הכללית של מוצר הנתונים, בנכסים, בחוזה ובהיבטים אחרים כדי להחליט אם הוא מתאים לשימוש.

    מידע נוסף מופיע במאמר בנושא חיפוש מוצרי נתונים.

  • בקשת גישה: מבקשים מהבעלים של מוצר הנתונים הרשאה לגשת לנתונים.

    מידע נוסף זמין במאמר בנושא בקשת גישה למוצרי נתונים.

  • שימוש: גישה לנכסים הבסיסיים כדי ליצור תובנות. הפעולה הנדרשת היא:

    • אחרי האישור, תוכלו לגשת למוצר ולנכסים שלו. לדוגמה, אם הנכס הוא טבלה ב-BigQuery, אפשר לעבור ל-BigQuery Studio ולהריץ שאילתות על הנתונים ישירות.

    • כדי להשתמש במוצר הנתונים באפליקציות ובתהליכי פיתוח שפועלים מחוץ ל-Google Cloud, אפשר לחשוף את מוצר הנתונים באמצעות שער מטא-נתונים חיצוני. מידע נוסף מופיע במאמר שימוש בשרת MCP מרוחק של קטלוג הידע.

    מידע נוסף זמין במאמר בנושא שימוש במוצרי נתונים.

נכסים נתמכים

מוצר נתונים יכול לכלול נכס נתונים אחד או יותר. נכסי הנתונים הבאים נתמכים:

  • מערכי נתונים ב-BigQuery
  • טבלאות ב-BigQuery
  • תצוגות BigQuery
  • שגרות ב-BigQuery
  • מודלים של BigQuery
  • טבלאות חיצוניות ב-BigQuery
  • מערכי נתונים של Gemini Enterprise Agent Platform
  • מודלים של Gemini Enterprise Agent Platform
  • קטגוריות של Cloud Storage

מגבלות

  • מיקום: מוצרי נתונים והנכסים הבסיסיים שלהם צריכים להיות באותוGoogle Cloud מיקום.
  • מטא-נתונים אוטומטיים: תיעוד אוטומטי ותובנות לא תומכים במספר אזורים us (ארצות הברית) ו-eu (האיחוד האירופי).
  • מודלים של BigQuery: הגישה למודלים של BigQuery במוצר נתונים מנוהלת באמצעות תנאי IAM שחלים על מדיניות IAM של קבוצת הנתונים הראשית. שיתוף מודלים של BigQuery כפוף למגבלות של תנאי IAM.
  • מכסות ומגבלות: רשימה מלאה של מגבלות הקצב של ה-API ומכסות הקיבולת זמינה במאמר מכסות לבקשות API של מוצרי נתונים.
  • אין תמיכה במאגרי מידע אזוריים.

המאמרים הבאים