מבוא למסגרת לזיהוי ישויות ב-BigQuery

במסמך הזה מתוארת הארכיטקטורה של מסגרת BigQuery לזיהוי ישויות. התכונה 'זיהוי ישויות' מתאימה רשומות בנתונים משותפים שאין להם מזהה משותף, או משפרת נתונים משותפים באמצעות שירות זהויות משותף משותף של Google Cloud שותף.

המסמך הזה מיועד למשתמשי קצה ולספקי זהויות (IdP). פרטים על ההטמעה מופיעים במאמר הגדרה ושימוש בפתרון ישויות ב-BigQuery.

אתם יכולים להשתמש בפתרון ישויות ב-BigQuery כדי להכין נתונים לפני שאתם משתפים אותם בחדר נקי לנתונים. התכונה 'זיהוי ישויות' זמינה במודלים של תמחור לפי דרישה ותמחור לפי קיבולת, ובכל מהדורות BigQuery.

יתרונות

משתמשי הקצה נהנים מהיתרונות הבאים של זיהוי ישויות:

  • לפתור ישויות במקום בלי לשלם עמלות על העברת נתונים. מנוי אוGoogle Cloud שותף משווים את הנתונים שלכם לטבלת הזהויות שלהם וכותבים את תוצאות ההתאמה למערך נתונים בפרויקט Google Cloud .
  • לא צריך לנהל עבודות חילוץ, טרנספורמציה וטעינה (ETL).

ספקי זהויות נהנים מהיתרונות הבאים של זיהוי ישויות:

  • להציע פתרון של ישות כשירות (SaaS) מנוהלת ב-Google Cloud Marketplace.
  • שימוש בתרשימי זהויות קנייניים ובלוגיקה של התאמה בלי לחשוף אותם למשתמשים.

ארכיטקטורה

ב-BigQuery מיושם זיהוי ישויות באמצעות קריאות לפונקציות מרוחקות שמפעילות תהליכי זיהוי ישויות בסביבה של ספק זהויות. הנתונים לא מועתקים ולא מועברים במהלך התהליך הזה. בתרשים ובתיאור הבאים מוסבר תהליך העבודה של זיהוי ישויות:

תרשים שמציג שני חלקים עיקריים: פרויקט של משתמש קצה ופרויקט של ספק זהויות.

  1. משתמש הקצה מעניק לחשבון השירות של ספק הזהויות הרשאת קריאה למערך נתוני הקלט והרשאת כתיבה למערך נתוני הפלט.
  2. המשתמש מתקשר לפונקציה המרוחקת שתואמת לנתוני הקלט שלו עם נתוני גרף הזהויות של הספק. הפונקציה המרוחקת מעבירה פרמטרים תואמים לספק.
  3. חשבון השירות של הספק קורא ומעבד את מערך נתוני הקלט.
  4. חשבון השירות של הספק כותב את התוצאות של זיהוי הישות למערך נתוני הפלט של המשתמש.

בקטעים הבאים מתוארים רכיבי משתמשי הקצה ופרויקטים של ספקים.

רכיבים של משתמשי קצה

הרכיבים שמשתמשי הקצה רואים כוללים את:

  • בקשה להפעלת פונקציה מרוחקת: קריאה שמפעילה הליך שהוגדר ויושם על ידי ספק הזהויות. השיחה הזו מתחילה את תהליך זיהוי הישות.
  • קבוצת נתוני קלט: קבוצת נתוני המקור שמכילה את הנתונים שצריך להתאים. אם רוצים, מערך הנתונים יכול להכיל טבלת מטא-נתונים עם פרמטרים נוספים. הספקים מציינים את דרישות הסכימה עבור מערכי נתונים של קלט.
  • קבוצת נתונים של פלט: קבוצת הנתונים של היעד שבה הספק מאחסן את התוצאות התואמות כטבלת פלט. אופציונלית, הספק יכול לכתוב טבלה של סטטוס המשימה שמכילה פרטים על משימת זיהוי הישויות במערך הנתונים הזה. מערך הנתונים של הפלט יכול להיות זהה למערך הנתונים של הקלט.

רכיבים של ספק זהויות

הרכיבים של ספק הזהויות כוללים את הפרטים הבאים:

  • מישור הבקרה: מכיל פונקציה מרוחקת של BigQuery שמנהלת את תהליך ההתאמה. אפשר להטמיע את הפונקציה הזו כמשימת Cloud Run או כפונקציית Cloud Run. מישור הבקרה יכול לכלול גם שירותים אחרים, כמו אימות והרשאה.
  • מישור הנתונים: מכיל את מערך הנתונים של גרף הזהויות ואת הפרוצדורה המאוחסנת שמיישמת את לוגיקת ההתאמה של הספק. אפשר להטמיע את התהליך המאוחסן כתהליך מאוחסן של SQL או כתהליך מאוחסן של Apache Spark. מערך הנתונים של גרף הזהויות מכיל את הטבלאות שמתבצעת השוואה בינן לבין נתוני משתמשי הקצה.

המאמרים הבאים