פלטפורמה לניהול נתונים ולניתוח נתונים בארגון מספקת סביבה מבודדת שבה אפשר לאחסן מידע רגיש, לנתח אותו ולבצע בו מניפולציות, תוך שמירה על אמצעי בקרה לאבטחה. אתם יכולים להשתמש בארכיטקטורת רשת נתונים ארגונית כדי לפרוס פלטפורמה ב- Google Cloud לניהול נתונים ולניתוח נתונים. הארכיטקטורה מיועדת לעבודה בסביבה היברידית, שבה רכיבים מקיימים אינטראקציה עם הרכיבים הקיימים שלכם במקום ועם תהליכי ההפעלה. Google Cloud
ארכיטקטורת רשת הנתונים הארגונית כוללת את הרכיבים הבאים:
- מאגר ב-GitHub שמכיל קבוצה של הגדרות, סקריפטים וקוד של Terraform לבניית הרכיבים הבאים:
- פרויקט משילות שמאפשר לכם להשתמש ביישום של Google של מסגרת אמצעי הבקרה למפתחות של Cloud Data Management Capabilities (CDMC).
- דוגמה לפלטפורמת נתונים שתומכת בתהליכי עבודה אינטראקטיביים ובתהליכי עבודה של ייצור.
- סביבת ייצור בפלטפורמת הנתונים שתומכת בכמה דומיינים של נתונים. תחומי נתונים הם קבוצות לוגיות של רכיבי נתונים.
- סביבת צרכנים בפלטפורמת הנתונים שתומכת במספר פרויקטים של צרכנים.
- שירות להעברת נתונים שמשתמש באיחוד שירותי אימות הזהות של עומסי עבודה ובספריית ההצפנה Tink כדי לעזור לכם להעביר נתונים אל Google Cloud באופן מאובטח.
- דוגמה לדומיין נתונים שמכיל פרויקטים של הטמעה, פרויקטים לא סודיים ופרויקטים סודיים.
- דוגמה למערכת גישה לנתונים שמאפשרת לצרכני נתונים לבקש גישה למערכי נתונים, ולבעלי נתונים להעניק גישה למערכי הנתונים האלה. הדוגמה כוללת גם כלי לניהול תהליכי עבודה שמשנה את הרשאות ה-IAM של מערכי הנתונים האלה בהתאם.
- מדריך לארכיטקטורה, לעיצוב, לאמצעי בקרת האבטחה ולתהליכים התפעוליים שמשמשים להטמעה של הארכיטקטורה הזו (המסמך הזה).
ארכיטקטורת רשת הנתונים הארגונית מתוכננת להיות תואמת לתוכנית הבסיס הארגונית. תוכנית ה-blueprint של Enterprise Foundations מספקת מספר שירותים ברמת הבסיס שהארכיטקטורה הזו מסתמכת עליהם, כמו רשתות VPC ורישום ביומן. אפשר לפרוס את הארכיטקטורה הזו בלי לפרוס את תוכנית האב של Enterprise Foundations אםGoogle Cloud הסביבה שלכם מספקת את הפונקציונליות הנדרשת.
המסמך הזה מיועד לאדריכלי ענן, למדעני נתונים, למהנדסי נתונים ולאדריכלי אבטחה שיכולים להשתמש בארכיטקטורה כדי ליצור ולפרוס שירותי נתונים מקיפים ב- Google Cloud. ההנחה במאמר הזה היא שאתם מכירים את המושגים של רשתות נתונים, Google Cloudשירותי נתונים ו Google Cloud הטמעה של מסגרת CDMC.
ארכיטקטורה
ארכיטקטורת רשת הנתונים הארגונית מבוססת על גישה שכבתית כדי לספק את היכולות שמאפשרות הטמעה, עיבוד וניהול של נתונים. הארכיטקטורה מיועדת לפריסה ולשליטה באמצעות תהליך עבודה של CI/CD. בתרשים הבא אפשר לראות איך שכבת הנתונים שמוטמעת על ידי הארכיטקטורה הזו קשורה לשכבות אחרות בסביבה שלכם.
התרשים הזה כולל את הפריטים הבאים:
- Google Cloud תשתית מספקת יכולות אבטחה כמו הצפנה במנוחה והצפנה בתנועה, וגם אבני בניין בסיסיות כמו מחשוב ואחסון.
- התשתית הארגונית מספקת בסיס של משאבים כמו זהות, רשת, רישום ביומן, מעקב ומערכות פריסה, שמאפשרים לכם להשתמש ב- Google Cloud לעומסי העבודה של הנתונים.
- שכבת הנתונים מספקת יכולות שונות כמו קליטת נתונים, אחסון נתונים, בקרת גישה לנתונים, משילות נתונים, מעקב אחרי נתונים ושיתוף נתונים.
- שכבת האפליקציה מייצגת אפליקציות שונות שמשתמשות בנכסי שכבת הנתונים.
- CI/CD מספק את הכלים לאוטומציה של הקצאה, הגדרה, ניהול ופריסה של תשתית, תהליכי עבודה ורכיבי תוכנה. הרכיבים האלה עוזרים לכם לוודא שהפריסות עקביות, אמינות וניתנות לביקורת, למזער שגיאות ידניות ולזרז את מחזור הפיתוח הכולל.
כדי להראות איך משתמשים בסביבת הנתונים, הארכיטקטורה כוללת דוגמה של תהליך עבודה עם נתונים. בתהליך העבודה של נתוני הדוגמה מוסבר על התהליכים הבאים: משילות מידע (data governance), הטמעת נתונים, עיבוד נתונים, שיתוף נתונים וצריכת נתונים.
החלטות אדריכליות מרכזיות
בטבלה הבאה מופיע סיכום של ההחלטות הכלליות לגבי הארכיטקטורה.
| אזור ההחלטה | החלטה |
|---|---|
| Google Cloud ארכיטקטורה | |
היררכיית המשאבים |
הארכיטקטורה משתמשת בהיררכיית המשאבים מתוכנית הבסיס של הארגון. |
Networking |
הארכיטקטורה כוללת דוגמה לשירות להעברת נתונים שמשתמש באיחוד שירותי אימות הזהות של עומסי עבודה ובספריית Tink. |
תפקידים והרשאות IAM |
הארכיטקטורה כוללת תפקידים של יוצרי נתונים מפולחים, תפקידים של צרכני נתונים, תפקידים של משילות מידע ותפקידים של פלטפורמת נתונים. |
| שירותי נתונים נפוצים | |
מטא-נתונים |
הארכיטקטורה כוללת את השימוש ב-Data Catalog כדי לנהל את המטא-נתונים של הנתונים. |
ניהול מדיניות מרכזי |
כדי לנהל מדיניות, הארכיטקטורה משתמשת בהטמעה של מסגרת CDMC ב- Google Cloud. |
ניהול הרשאות גישה לנתונים |
כדי לשלוט בגישה לנתונים, הארכיטקטורה כוללת תהליך עצמאי שבו צרכני הנתונים צריכים לבקש גישה לנכסי הנתונים מבעלי הנתונים. |
איכות הנתונים |
הארכיטקטורה כוללת את השימוש ב-Cloud Data Quality Engine כדי להגדיר ולהפעיל כללים לאיכות הנתונים בעמודות ספציפיות בטבלה, ולמדוד את איכות הנתונים על סמך מדדים כמו נכונות ושלמות. |
אבטחת מידע |
הארכיטקטורה משתמשת בתיוג, בהצפנה, בהתממת מידע, בשימוש באסימונים ובאמצעי בקרה של IAM כדי לספק אבטחת נתונים. |
| דומיין נתונים | |
סביבות נתונים |
הארכיטקטורה כוללת שלוש סביבות. שתי סביבות (ללא ייצור וייצור) הן סביבות תפעוליות שמופעלות על ידי צינורות עיבוד נתונים. סביבה אחת (פיתוח) היא סביבה אינטראקטיבית. |
בעלי הנתונים |
בעלי הנתונים מבצעים המרה, עיבוד וחשיפה של נכסי נתונים, ומעניקים גישה אליהם. |
צרכני נתונים |
צרכני נתונים מבקשים גישה לנכסי נתונים. |
| קליטת עובדים ותפעול | |
פייפליינים |
הארכיטקטורה משתמשת בצינורות הבאים כדי לפרוס משאבים:
|
מאגרים |
כל צינור עיבוד נתונים משתמש במאגר נפרד כדי לאפשר הפרדה של האחריות. |
זרימת התהליך |
התהליך מחייב ששינויים בסביבת הייצור יכללו שולח ומאשר. |
| Cloud operations | |
כרטיסי ניקוד של מוצרים מבוססי-נתונים |
מנוע הדוחות יוצר כרטיסי ניקוד של מוצרי נתונים. |
Cloud Logging |
הארכיטקטורה משתמשת בתשתית הרישום ביומן מתוכנית ה-blueprint של Enterprise Foundations. |
Cloud Monitoring |
הארכיטקטורה משתמשת בתשתית הניטור מתוכנית הבסיס של הארגון. |
זהות: מיפוי תפקידים לקבוצות
ה-data mesh מתבסס על הארכיטקטורה הקיימת של ניהול מחזור החיים של הזהויות, ההרשאות והאימות בתוכנית הבסיסית של הארגון. התפקידים לא מוקצים למשתמשים ישירות, אלא הקבוצות הן השיטה העיקרית להקצאת תפקידים והרשאות ב-IAM. תפקידים והרשאות ב-IAM מוקצים במהלך יצירת הפרויקט באמצעות צינור הנתונים של התשתית.
ב-Data Mesh, קבוצות משויכות לאחד מארבעה תחומים מרכזיים: תשתית, ניהול נתונים, מפיקי נתונים מבוססי-דומיין וצרכני נתונים מבוססי-דומיין.
היקפי ההרשאות של הקבוצות האלה הם:
- היקף ההרשאות של קבוצת התשתית הוא רשת הנתונים כולה.
- היקף ההרשאות של קבוצות משילות המידע הוא פרויקט משילות המידע.
- ההרשאות של צרכנים ומפיקים שמבוססות על דומיין מוגבלות לדומיין הנתונים שלהם.
בטבלאות הבאות מפורטים התפקידים השונים שמשמשים בהטמעה של רשת הנתונים הזו וההרשאות שמשויכות להם.
תשתית
| קבוצה | תיאור | תפקידים |
|---|---|---|
|
אדמינים כלליים של רשת הנתונים |
|
משילות מידע (data governance)
| קבוצה | תיאור | תפקידים |
|---|---|---|
|
אדמינים של פרויקט משילות מידע (data governance) |
|
|
מפתחים שיוצרים ומתחזקים את רכיבי המשילות של הנתונים |
כמה תפקידים בפרויקט משילות מידע (data governance), כולל |
|
קוראי מידע על משילות מידע (data governance) |
|
|
אדמינים של אבטחה בפרויקט השליטה |
|
|
קבוצה עם הרשאה להשתמש בתבניות תגים |
|
|
קבוצה עם הרשאה להשתמש בתבניות תגים ולהוסיף תגים |
|
|
קבוצת חשבונות שירות להתראות של Security Command Center |
אין. זו קבוצה לחברות, ונוצר חשבון שירות עם השם הזה, שיש לו את ההרשאות הנדרשות. |
מפיקי נתונים מבוססי-דומיין
| קבוצה | תיאור | תפקידים |
|---|---|---|
|
אדמינים של דומיין נתונים ספציפי |
|
|
מפתחים שיוצרים מוצרי נתונים ומתחזקים אותם בתחום נתונים |
כמה תפקידים בפרויקט של תחום הנתונים, כולל |
|
משתמשים שיכולים לקרוא את המידע על תחום הנתונים |
|
|
עורכים של רשומות ב-Data Catalog |
תפקידים לעריכת רשומות בקטלוג הנתונים |
|
אחראים על נתוני הדומיין |
הרשאות לניהול מטא-נתונים והיבטים של משילות מידע |
צרכני נתונים מבוססי-דומיין
| קבוצה | תיאור | תפקידים |
|---|---|---|
|
אדמינים של פרויקט צרכן ספציפי |
|
|
מפתחים שעובדים בפרויקט צרכן |
כמה תפקידים בפרויקט הצרכן, כולל |
|
מי יכול לקרוא את המידע על פרויקט הצרכנים |
|
מבנה ארגוני
כדי להבדיל בין פעולות ייצור לבין נתוני ייצור, הארכיטקטורה משתמשת בסביבות שונות לפיתוח ולפרסום של תהליכי עבודה. פעולות הייצור כוללות את השליטה, האפשרות למעקב והחזרה על תהליך עבודה, ואת האפשרות לבדיקה של תוצאות תהליך העבודה. נתוני ייצור מתייחסים למידע אישי רגיש שאולי נדרש לכם כדי להפעיל את הארגון. כל הסביבות מתוכננות כך שיכללו אמצעי בקרה לאבטחה שיאפשרו לכם להטמיע את הנתונים ולהשתמש בהם.
כדי לעזור למדעני נתונים ולמהנדסים, הארכיטקטורה כוללת סביבה אינטראקטיבית שבה מפתחים יכולים לעבוד ישירות עם הסביבה ולהוסיף שירותים באמצעות קטלוג של פתרונות שנבחרו בקפידה. סביבות תפעוליות מופעלות באמצעות צינורות שכוללים ארכיטקטורה והגדרות מקודדות.
הארכיטקטורה הזו משתמשת במבנה הארגוני של תוכנית ה-blueprint של Enterprise Foundations כבסיס לפריסת עומסי עבודה של נתונים. הדיאגרמה הבאה מציגה את התיקיות והפרויקטים ברמה העליונה שמשמשים בארכיטקטורת רשת נתונים ארגונית.
בטבלה הבאה מתוארים הפרויקטים והתיקיות ברמה העליונה שמהווים חלק מהארכיטקטורה.
| תיקייה | רכיב | תיאור |
|---|---|---|
|
|
כולל את צינור עיבוד הנתונים לפריסה שמשמש ליצירת ארטיפקטים של קוד בארכיטקטורה. |
|
מכילה את התשתית שבה משתמש Service Catalog כדי לפרוס משאבים בסביבה האינטראקטיבית. |
|
|
מכיל את כל המשאבים שמשמשים את ההטמעה של Google CloudFramework ה-CDMC. |
|
|
|
מכיל את הפרויקטים והמשאבים של פלטפורמת הנתונים לפיתוח תרחישי שימוש במצב אינטראקטיבי. |
|
|
כולל את הפרויקטים והמשאבים של פלטפורמת הנתונים לשימוש בתרחישי בדיקה שרוצים לפרוס בסביבת הפעלה. |
|
|
מכיל את הפרויקטים והמשאבים של פלטפורמת הנתונים לפריסה בסביבת ייצור. |
תיקייה בפלטפורמת נתונים
התיקייה של פלטפורמת הנתונים מכילה את כל הרכיבים של מישור הנתונים וחלק מהמשאבים של CDMC. בנוסף, התיקייה של פלטפורמת הנתונים והפרויקט של משילות המידע מכילים את משאבי ה-CDMC. בתרשים הבא מוצגים התיקיות והפרויקטים שנפרסים בתיקיית פלטפורמת הנתונים.
כל תיקייה של פלטפורמת נתונים כוללת תיקייה של סביבה (ייצור, לא ייצור ופיתוח). בטבלה הבאה מתוארים התיקיות בתוך כל תיקייה של פלטפורמת נתונים.
| תיקיות | תיאור |
|---|---|
מפיקים |
מכיל את דומייני הנתונים. |
צרכנים |
מכיל את הפרויקטים של הצרכן. |
דומיין נתונים |
מכיל את הפרויקטים שמשויכים לדומיין מסוים. |
תיקיית המפיקים
כל תיקייה של יצרן כוללת דומיין נתונים אחד או יותר. דומיין נתונים מתייחס לקבוצה לוגית של רכיבי נתונים שיש להם משמעות, מטרה או הקשר עסקי משותפים. דומיינים של נתונים מאפשרים לכם לסווג ולארגן נכסי נתונים בארגון. בתרשים הבא מוצג המבנה של תחום נתונים. הארכיטקטורה פורסת פרויקטים בתיקייה של פלטפורמת הנתונים לכל סביבה.
בטבלה הבאה מתוארים הפרויקטים שנפרסים בתיקייה של פלטפורמת הנתונים בכל סביבה.
| פרויקט | תיאור |
|---|---|
הטמעת נתונים |
פרויקט ההטמעה מטמיע נתונים בדומיין הנתונים. הארכיטקטורה כוללת דוגמאות לאופן שבו אפשר להזרים נתונים ל-BigQuery, ל-Cloud Storage ול-Pub/Sub. פרויקט ההטמעה מכיל גם דוגמאות של Dataflow ו-Cloud Composer שבהן אפשר להשתמש כדי לתזמן את הטרנספורמציה וההעברה של הנתונים שהוטמעו. |
לא סודי |
הפרויקט הלא סודי מכיל נתונים שעברו הסרת פרטים מזהים. אתם יכולים להשתמש בטכניקות כמו מיסוך, יצירת קונטיינרים, הצפנה, שימוש באסימונים או ערפול קוד (obfuscation) של נתונים. אפשר להשתמש בתגי מדיניות כדי לקבוע איך הנתונים יוצגו. |
סודי |
הפרויקט הסודי מכיל נתונים בטקסט פשוט. אפשר לשלוט בגישה באמצעות הרשאות IAM. |
תיקיית צרכנים
התיקייה של הצרכן מכילה פרויקטים של צרכנים. פרויקטים לצרכנים מספקים מנגנון לפילוח משתמשי נתונים על סמך גבולות האמון הנדרשים שלהם. כל פרויקט מוקצה לקבוצת משתמשים נפרדת, והקבוצה מקבלת גישה לנכסי הנתונים הנדרשים על בסיס פרויקט אחר פרויקט. אתם יכולים להשתמש בפרויקט הצרכני כדי לאסוף, לנתח ולהוסיף נתונים לקבוצה.
תיקייה משותפת
התיקייה common מכילה את השירותים שמשמשים סביבות ופרויקטים שונים. בקטע הזה מתוארות היכולות שנוספות לתיקייה המשותפת כדי להפעיל את רשת הנתונים של הארגון.
ארכיטקטורת CDMC
הארכיטקטורה משתמשת בארכיטקטורת CDMC למשילות מידע. הפונקציות של משילות המידע נמצאות בפרויקט של משילות המידע בתיקייה המשותפת. בתרשים הבא מוצגים הרכיבים של ארכיטקטורת CDMC. המספרים בתרשים מייצגים את אמצעי הבקרה למפתחות שבהם משתמשים בשירותי Google Cloud.
בטבלה הבאה מתוארים הרכיבים של ארכיטקטורת CDMC שבהם נעשה שימוש בארכיטקטורת רשת הנתונים הארגונית.
| רכיב CDMC | שירותGoogle Cloud | תיאור |
|---|---|---|
| רכיבים של גישה ומחזור חיים | ||
ניהול מפתחות |
Cloud KMS |
שירות שמנהל בצורה מאובטחת מפתחות הצפנה שמגנים על נתונים רגישים. |
הכלי לניהול רשומות |
Cloud Run |
אפליקציה שמנהלת יומנים מקיפים ורשומות של פעילויות עיבוד נתונים, כדי לאפשר לארגונים לעקוב אחר השימוש בנתונים ולבצע ביקורת. |
מדיניות בנושא העברה לארכיון |
BigQuery |
טבלה ב-BigQuery שמכילה את מדיניות האחסון של הנתונים. |
הרשאות |
BigQuery |
טבלה ב-BigQuery שמאחסנת מידע על מי יכול לגשת למידע אישי רגיש. הטבלה הזו מבטיחה שרק משתמשים מורשים יוכלו לגשת לנתונים ספציפיים על סמך התפקידים וההרשאות שלהם. |
| סריקת רכיבים | ||
אובדן נתונים |
Sensitive Data Protection |
שירות שמשמש לבדיקת נכסים כדי לאתר מידע אישי רגיש. |
ממצאים של DLP |
BigQuery |
טבלה ב-BigQuery שמכילה קטלוג של סיווגי נתונים בפלטפורמת הנתונים. |
מדיניות |
BigQuery |
טבלה ב-BigQuery שמכילה שיטות עקביות של משילות מידע (data governance) (לדוגמה, סוגי גישה לנתונים). |
ייצוא נתוני החיוב |
BigQuery |
טבלה שמאחסנת מידע על עלויות שיוצאו מהחיוב ב-Cloud כדי לאפשר ניתוח של מדדי עלות שמשויכים לנכסי נתונים. |
Cloud Data Quality Engine |
Cloud Run |
אפליקציה שמריצה בדיקות של איכות הנתונים לטבלאות ולעמודות. |
ממצאים בנושא איכות הנתונים |
BigQuery |
טבלה ב-BigQuery שמתעדת את הפערים שזוהו בין הכללים המוגדרים לאיכות הנתונים לבין האיכות בפועל של נכסי הנתונים. |
| רכיבי דיווח | ||
Scheduler |
Cloud Scheduler |
שירות שקובע מתי Cloud Data Quality Engine פועל ומתי מתבצעת הבדיקה של Sensitive Data Protection. |
מנוע הדוחות |
Cloud Run |
אפליקציה שמפיקה דוחות שעוזרים לעקוב אחרי ההקפדה על אמצעי הבקרה של מסגרת CDMC ולמדוד אותה. |
ממצאים ונכסים |
BigQuery ו-Pub/Sub |
דוח של BigQuery על חוסר התאמה או אי-עקביות באמצעי הבקרה לניהול נתונים, כמו תגים חסרים, סיווגים שגויים או מיקומי אחסון שלא עומדים בדרישות. |
ייצוא תגים |
BigQuery |
טבלה ב-BigQuery שמכילה מידע על תגים שחולץ מ-Data Catalog. |
| רכיבים אחרים | ||
ניהול המדיניות |
Organization Policy Service |
שירות שמגדיר ואוכף הגבלות על המיקום הגיאוגרפי שבו אפשר לאחסן נתונים. |
מדיניות גישה מבוססת-מאפיינים |
Access Context Manager |
שירות שמגדיר ואוכף מדיניות גישה פרטנית שמבוססת על מאפיינים, כך שרק משתמשים מורשים ממיקומים וממכשירים מותרים יכולים לגשת למידע רגיש. |
מטא-נתונים |
Data Catalog |
שירות שמאחסן מידע על מטא-נתונים לגבי הטבלאות שנמצאות בשימוש ברשת הנתונים. |
Tag Engine |
Cloud Run |
אפליקציה שמוסיפה תגים לנתונים בטבלאות של BigQuery. |
דוחות CDMC |
Looker Studio |
לוחות בקרה שמאפשרים לאנליסטים לצפות בדוחות שנוצרו על ידי מנועי הארכיטקטורה של CDMC. |
הטמעה של CDMC
בטבלה הבאה מתואר איך הארכיטקטורה מטמיעה את אמצעי הבקרה למפתחות במסגרת CDMC.
| דרישת הבקרה של CDMC | הטמעה |
|---|---|
מנוע הדוחות מזהה נכסי נתונים שלא עומדים בדרישות ומפרסם ממצאים בנושא ב-Pub/Sub. הממצאים האלה נטענים גם ל-BigQuery לצורך דיווח באמצעות Looker Studio. |
|
הבעלות על הנתונים היא גם לנתונים שהועברו וגם לנתונים שנוצרו בענן |
ב-Data Catalog מתועדים באופן אוטומטי מטא-נתונים טכניים מ-BigQuery. Tag Engine מחיל תגים של מטא-נתונים עסקיים כמו שם הבעלים ורמת הרגישות מטבלת הפניה, כדי לוודא שכל המידע האישי הרגיש מתויג בפרטי הבעלים לצורך תאימות. תהליך התיוג האוטומטי הזה עוזר לספק משילות מידע ותאימות על ידי זיהוי מידע אישי רגיש ותיוגם בפרטי הבעלים המתאימים. |
Data Catalog מסווג נכסי נתונים באמצעות תיוג שלהם ב |
|
השירות של מדיניות הארגון מגדיר את האזורים המותרים לאחסון נכסי נתונים, ו-Access Context Manager מגביל את הגישה על סמך מיקום המשתמש. מיקומי האחסון המאושרים מאוחסנים ב-Data Catalog בתור תגי מטא-נתונים. מנוע הדוחות משווה את התגים האלה למיקום בפועל של נכסי הנתונים ב-BigQuery ומפרסם את כל הפערים כתוצאות באמצעות Pub/Sub. Security Command Center מספק שכבת ניטור נוספת על ידי יצירת ממצאי נקודות חולשה אם הנתונים מאוחסנים או שיש גישה אליהם מחוץ למדיניות המוגדרת. |
|
ב-Data Catalog נשמרים המטא-נתונים הטכניים של כל נכסי הנתונים ב-BigQuery, והם מתעדכנים באופן שוטף. כך נוצר Data Catalog שמסתנכרן באופן רציף. Data Catalog מוודא שכל הטבלאות והתצוגות החדשות או ששונו יתווספו לקטלוג באופן מיידי, וכך ישמור על מלאי עדכני של נכסי נתונים. |
|
Sensitive Data Protection בודק את הנתונים ב-BigQuery ומזהה סוגים של מידע רגיש. לאחר מכן הממצאים מדורגים על סמך טבלת סיווג, ורמת הרגישות הגבוהה ביותר מוקצית כתג ב-Data Catalog ברמת העמודה והטבלה. Tag Engine מנהל את התהליך הזה על ידי עדכון של Data Catalog בתגי רגישות בכל פעם שמוסיפים נכסי נתונים חדשים או משנים נכסי נתונים קיימים. התהליך הזה מבטיח סיווג של הנתונים לפי רגישות שמתעדכן כל הזמן, ואפשר לעקוב אחריו ולדווח עליו באמצעות Pub/Sub וכלי דיווח משולבים. |
|
תגי המדיניות ב-BigQuery שולטים בגישה למידע אישי רגיש ברמת העמודה, כדי להבטיח שרק משתמשים מורשים יוכלו לגשת לנתונים ספציפיים על סמך תג המדיניות שהוקצה להם. IAM מנהל את הגישה הכוללת למחסן הנתונים, ו-Data Catalog מאחסן סיווגי רגישות. מתבצעות בדיקות קבועות כדי לוודא שלכל המידע האישי הרגיש יש תגי מדיניות תואמים, ואם יש אי התאמות, הן מדווחות באמצעות Pub/Sub לצורך תיקון. |
|
הקפדה על אתיקה בשימוש בנתונים ובגישה אליהם, וניהול תוצרי המידע |
הסכמי שיתוף הנתונים של הספקים ושל הצרכנים מאוחסנים במחסן נתונים ייעודי ב-BigQuery כדי לשלוט במטרות השימוש. Data Catalog מתייג נכסי נתונים עם פרטי ההסכם של הספק, בעוד שההסכמים של הצרכנים מקושרים לקישורי IAM לצורך בקרת גישה. תוויות של שאילתות אוכפות את מטרות השימוש, ומחייבות את הצרכנים לציין מטרה חוקית כששולחים שאילתה לקבלת מידע אישי רגיש. המערכת מאמתת את המטרה מול ההרשאות שלהם ב-BigQuery. מסלול ביקורת ב-BigQuery עוקב אחרי כל הגישה לנתונים ומבטיח עמידה בהסכמי שיתוף הנתונים. |
ההצפנה במנוחה של Google כברירת מחדל עוזרת להגן על נתונים שמאוחסנים בדיסק. Cloud KMS תומך במפתחות הצפנה בניהול הלקוח (CMEK) לניהול מפתחות משופר. ב-BigQuery מיושם מיסוך דינמי של נתונים ברמת העמודה לצורך הסרת פרטים מזהים, ויש תמיכה בהסרת פרטים מזהים ברמת האפליקציה במהלך הטמעת הנתונים. ב-Data Catalog נשמרים תגי מטא-נתונים של טכניקות הצפנה והסרת פרטי הזיהוי שמוחלות על נכסי נתונים. בדיקות אוטומטיות מוודאות ששיטות ההצפנה והסרת הפרטים המזהים תואמות למדיניות אבטחה מוגדרת מראש, וכל אי התאמה מדווחת כתוצאה באמצעות Pub/Sub. |
|
נכסי נתונים רגישים מתויגים ב-Data Catalog במידע רלוונטי להערכת ההשפעה, כמו מיקום הנושא וקישורים לדוחות הערכה. Tag Engine מחיל את התגים האלה על סמך רגישות הנתונים וטבלת מדיניות ב-BigQuery, שבה מוגדרות דרישות ההערכה על סמך מיקום הנתונים והנושא. תהליך התיוג האוטומטי הזה מאפשר מעקב רציף ודיווח על התאימות לדרישות של הערכת ההשפעה, וכך מוודא שהערכות ההשפעה של הגנה על מידע (DPIA) או הערכות ההשפעה על הפרטיות (PIA) מתבצעות כשצריך. |
|
Data Catalog מסמן נכסי נתונים באמצעות מדיניות שמירת נתונים, ומציין תקופות שמירה ופעולות שיבוצעו בתום התקופה (כמו העברה לארכיון או מחיקה סופית). הכלי Record Manager מבצע אוטומציה של אכיפת המדיניות הזו על ידי מחיקה סופית או העברה לארכיון של טבלאות ב-BigQuery על סמך התגים שהוגדרו. האכיפה הזו מבטיחה עמידה במדיניות בנושא מחזור החיים של נתונים ושמירה על תאימות לדרישות בנושא שמירת נתונים. אם מתגלים פערים, הם מדווחים באמצעות Pub/Sub. |
|
Cloud Data Quality Engine מגדיר ומריץ כללים לאיכות הנתונים בעמודות טבלה שצוינו, ומודד את איכות הנתונים על סמך מדדים כמו נכונות ושלמות. התוצאות של הבדיקות האלה, כולל אחוזי ההצלחה וערכי הסף, מאוחסנות כתגים ב-Data Catalog. אחסון התוצאות האלה מאפשר מעקב רציף ודיווח על איכות הנתונים, וכל בעיה או חריגה מערכי הסף המקובלים מתפרסמת כממצא באמצעות Pub/Sub. |
|
ב-Data Catalog מאוחסנים מדדים שקשורים לעלויות של נכסי נתונים, כמו עלויות של שאילתות, עלויות של אחסון ועלויות של העברת נתונים יוצאים. המדדים האלה מחושבים באמצעות נתוני חיוב שמיוצאים מחיוב ב-Cloud ל-BigQuery. אחסון מדדים שקשורים לעלויות מאפשר מעקב מקיף אחרי העלויות וניתוח שלהן, כדי לוודא שאתם עומדים במדיניות העלויות ומנצלים את המשאבים בצורה יעילה. אם יש חריגות, הן מדווחות באמצעות Pub/Sub. |
|
התכונות המובנות של Data Lineage ב-Data Catalog עוקבות אחרי המקורות וההשתלשלות של נכסי הנתונים, ומציגות באופן חזותי את זרימת הנתונים. בנוסף, סקריפטים של הטמעת נתונים מזהים את המקור המקורי של הנתונים ב-Data Catalog ומתייגים אותו, וכך משפרים את היכולת לעקוב אחרי הנתונים עד למקור שלהם. |
ניהול הרשאות גישה לנתונים
הגישה לנתונים בארכיטקטורה נשלטת באמצעות תהליך עצמאי שמפריד בין בקרה תפעולית (לדוגמה, הפעלת משימות Dataflow) לבין בקרת גישה לנתונים. הגישה של משתמש ל Google Cloud שירות מוגדרת על ידי בעיה סביבתית או תפעולית, והיא מסופקת ומאושרת על ידי קבוצת מהנדסי ענן. הגישה של משתמש לנכסי נתונים של Google Cloud (לדוגמה, טבלה ב-BigQuery) היא עניין שקשור לפרטיות, לרגולציה או לממשל, והיא כפופה להסכם גישה בין הצדדים שמפיקים את הנתונים לבין הצדדים שצורכים אותם. הגישה נשלטת באמצעות התהליכים הבאים. בתרשים הבא מוצג איך מוקצית גישה לנתונים באמצעות האינטראקציה בין רכיבי תוכנה שונים.
כפי שמוצג בתרשים הקודם, תהליך ההצטרפות של גישות לנתונים מתבצע באמצעות התהליכים הבאים:
- נכסי נתונים בענן נאספים ונרשמים במלאי על ידי Data Catalog.
- מנהל זרימת העבודה מאחזר את נכסי הנתונים מ-Data Catalog.
- בעלי הנתונים מצורפים למרכז לניהול תהליכי עבודה.
כך פועל ניהול הרשאות הגישה לנתונים:
- צרכן נתונים שולח בקשה לנכס ספציפי.
- הבעלים של הנתונים בנכס מקבל התראה על הבקשה.
- הבעלים של הנתונים מאשר או דוחה את הבקשה.
- אם הבקשה מאושרת, מנהל זרימת העבודה מעביר את הקבוצה, הנכס והתג המשויך אל כלי המיפוי של IAM.
- הכלי למיפוי IAM מתרגם את התגים של הכלי לניהול תהליכי עבודה להרשאות IAM, ומעניק לקבוצה שצוינה הרשאות IAM לנכס הנתונים.
- כשמשתמש רוצה לגשת לנכס הנתונים, מערכת IAM בודקת את הגישה לנכס בהתאם להרשאות של הקבוצה. Google Cloud
- אם יש הרשאה, המשתמש ניגש לנכס הנתונים.
Networking
תהליך אבטחת מידע מתחיל באפליקציית המקור, שיכולה להיות מקומית או בסביבה אחרת מחוץ לפרויקט היעדGoogle Cloud . לפני שמתבצעת העברה ברשת, האפליקציה הזו משתמשת באיחוד שירותי אימות הזהות של עומסי עבודה כדי לבצע אימות מאובטח מול Google Cloud APIs. באמצעות פרטי הכניסה האלה, הוא יוצר אינטראקציה עם Cloud KMS כדי לקבל או לעטוף את המפתחות הנדרשים, ואז משתמש בספריית Tink כדי לבצע הצפנה ראשונית והסרת פרטי הזיהוי של מטען הנתונים הרגיש בהתאם לתבניות מוגדרות מראש.
אחרי שהמטען הייעודי של הנתונים מוגן, צריך להעביר אותו בצורה מאובטחת אל Google Cloud פרויקט ההטמעה. עבור אפליקציות מקומיות, אפשר להשתמש ב-Cloud Interconnect או ב-Cloud VPN. ברשתGoogle Cloud , משתמשים ב-Private Service Connect כדי לנתב את הנתונים אל נקודת הקצה של ההטמעה ברשת ה-VPC של פרויקט היעד. Private Service Connect מאפשר לאפליקציית המקור להתחבר לממשקי API של Google באמצעות כתובות IP פרטיות, וכך לוודא שהתעבורה לא נחשפת לאינטרנט.
כל נתיב הרשת ושירותי ההטמעה של היעד (Cloud Storage, BigQuery ו-Pub/Sub) בתוך פרויקט ההטמעה מאובטחים על ידי היקף של VPC Service Controls. גבולות הגזרה האלה יוצרים גבול אבטחה, כדי לוודא שהנתונים המוגנים שמגיעים מהמקור יכולים להיקלט רק בGoogle Cloud שירותים המורשים בתוך הפרויקט הספציפי הזה.
רישום ביומן
הארכיטקטורה הזו משתמשת ביכולות של Cloud Logging שמופיעות בתוכנית הבסיסית לארגונים.
פייפליינים
ארכיטקטורת ה-Data Mesh הארגונית משתמשת בסדרה של צינורות עיבוד נתונים כדי להקצות את התשתית, התזמור, מערכי הנתונים, צינורות עיבוד הנתונים ורכיבי האפליקציה. צינורות עיבוד הנתונים לפריסת משאבים בארכיטקטורה משתמשים ב-Terraform ככלי של תשתית כקוד (IaC) וב-Cloud Build כשירות CI/CD כדי לפרוס את ההגדרות של Terraform בסביבת הארכיטקטורה. הדיאגרמה הבאה מציגה את הקשר בין צינורות העיבוד.
צינור עיבוד הנתונים של התשתית וצינור עיבוד הנתונים של הבסיס הם חלק מהתוכנית של הבסיס הארגוני. בטבלה הבאה מתואר הייעוד של צינורות האספקה והמשאבים שהם מספקים.
| פייפליין | הוקצה על ידי | משאבים |
|---|---|---|
צינור עיבוד נתונים של Foundation |
Bootstrap |
|
צינור עיבוד נתונים של התשתית |
צינור עיבוד נתונים של Foundation |
|
צינור Service Catalog |
צינור עיבוד נתונים של התשתית |
|
צינורות עיבוד נתונים של Artifact |
צינור עיבוד נתונים של התשתית |
צינורות עיבוד נתונים של ארטיפקטים יוצרים את הקונטיינרים השונים ורכיבים אחרים של בסיס הקוד שמשמש את רשת הנתונים. |
לכל צינור יש קבוצה משלו של מאגרי מידע שממנו הוא שולף קוד וקבצי תצורה. בכל מאגר יש הפרדה בין התפקידים, כך שהאחריות על שליחת פריסות של קוד תפעולי ואישור שלהן מוטלת על קבוצות שונות.
פריסה אינטראקטיבית דרך Service Catalog
סביבות אינטראקטיביות הן סביבת הפיתוח בארכיטקטורה, והן נמצאות בתיקיית הפיתוח. הממשק הראשי של הסביבה האינטראקטיבית הוא Service Catalog, שמאפשר למפתחים להשתמש בתבניות שהוגדרו מראש כדי ליצור מופעים של שירותי Google. התבניות המוגדרות מראש האלה נקראות תבניות שירות. תבניות שירות עוזרות לכם לאכוף את מדיניות האבטחה שלכם, למשל להפוך את ההצפנה באמצעות CMEK לחובה, וגם מונעות מהמשתמשים שלכם גישה ישירה ל-Google APIs.
הדיאגרמה הבאה מציגה את הרכיבים של הסביבה האינטראקטיבית ואת האופן שבו מדעני נתונים פורסים משאבים.
כדי לפרוס משאבים באמצעות Service Catalog, מתבצעים השלבים הבאים:
- מהנדס ה-MLOps מכניס תבנית משאב של Terraform עבור Google Cloud למאגר Git.
- הפקודה Git Commit מפעילה צינור עיבוד נתונים של Cloud Build.
- Cloud Build מעתיק את התבנית ואת קובצי ההגדרות שמשויכים אליה ל-Cloud Storage.
- מהנדס ה-MLOps מגדיר את הפתרונות של Service Catalog ואת Service Catalog באופן ידני. לאחר מכן, המהנדס משתף את Service Catalog עם פרויקט שירות בסביבה האינטראקטיבית.
- מדען הנתונים בוחר משאב מתוך קטלוג השירותים.
- קטלוג השירותים פורס את התבנית בסביבה האינטראקטיבית.
- המשאב שולף את כל סקריפטי ההגדרה הנדרשים.
- מדען הנתונים יוצר אינטראקציה עם המשאבים.
צינורות עיבוד נתונים של Artifact
תהליך הטמעת הנתונים משתמש ב-Cloud Composer וב-Dataflow כדי לתזמן את התנועה והשינוי של הנתונים בתוך תחום הנתונים. צינור עיבוד הנתונים של הארטיפקט יוצר את כל המשאבים שדרושים להעברת נתונים, ומעביר את המשאבים למיקום המתאים כדי שהשירותים יוכלו לגשת אליהם. צינור עיבוד הנתונים של הארטיפקטים יוצר את ארטיפקטים של הקונטיינר שמשמשים את כלי התזמור.
אמצעי בקרה לאבטחה
ארכיטקטורת רשת הנתונים הארגונית משתמשת במודל אבטחה רב-שכבתי בגישת הגנה לעומק,שכולל Google Cloud יכולות Google Cloud, שירותים ויכולות אבטחה שמוגדרים באמצעות תוכנית הבסיס הארגוני. בתרשים הבא מוצגת השכבה של אמצעי הבקרה השונים לאבטחה של הארכיטקטורה.
בטבלה הבאה מתוארים אמצעי האבטחה שמשויכים למשאבים בכל שכבה.
| שכבה | משאב | אמצעי בקרה לאבטחה |
|---|---|---|
מסגרת CDMC |
Google Cloud הטמעה של CDMC |
מספק מסגרת ניהול שעוזרת לאבטח, לנהל ולשלוט בנכסי הנתונים שלכם. מידע נוסף זמין במאמר מסגרת אמצעי הבקרה למפתחות של CDMC. |
פריסה |
צינור עיבוד נתונים של התשתית |
מספק סדרה של צינורות שפורסים תשתית, בונים קונטיינרים ויוצרים צינורות נתונים. השימוש בצינורות מאפשר ביצוע ביקורת, מעקב וחזרה על פעולות. |
צינור עיבוד נתונים של פריט מידע שנוצר בתהליך |
פריסת רכיבים שונים שלא נפרסים על ידי צינור התשתית. |
|
תבניות Terraform |
מבנה את תשתית המערכת. |
|
Open Policy Agent |
התכונה עוזרת לוודא שהפלטפורמה עומדת בדרישות של מדיניות נבחרת. |
|
רשת |
התחברות לשירות פרטי |
מספק הגנות מפני גניבת נתונים סביב משאבי הארכיטקטורה בשכבת ה-API ובשכבת ה-IP. מאפשרת לכם לתקשר עם Google Cloud APIs באמצעות כתובות IP פרטיות, כדי שלא תצטרכו לחשוף את התנועה לאינטרנט. |
רשת VPC עם כתובות IP פרטיות |
עוזרת להפחית את החשיפה לאיומים באינטרנט. |
|
VPC Service Controls |
עוזרת להגן על משאבים רגישים מפני זליגת נתונים. |
|
חומת אש |
עוזר להגן על רשת ה-VPC מפני גישה לא מורשית. |
|
ניהול הרשאות גישה |
Access Context Manager |
היא קובעת למי יש גישה למשאבים מסוימים ועוזרת למנוע שימוש לא מורשה במשאבים. |
איחוד שירותי אימות הזהות של עומסי עבודה |
היא מבטלת את הצורך בפרטי כניסה חיצוניים כדי להעביר נתונים לפלטפורמה מסביבות מקומיות. |
|
Data Catalog |
מספק אינדקס של נכסים שזמינים למשתמשים. |
|
IAM |
מספק גישה פרטנית. |
|
הצפנה |
Cloud KMS |
מאפשר לכם לנהל את מפתחות ההצפנה והסודות שלכם, ועוזר להגן על הנתונים באמצעות הצפנה במצב מנוחה והצפנה בזמן העברה. |
Secrets Manager |
השירות הזה מספק מאגר סודות לצינורות עיבוד נתונים שנשלטים על ידי IAM. |
|
הצפנה במנוחה |
כברירת מחדל, Google Cloud מצפין נתונים באחסון. |
|
הצפנה במעבר |
כברירת מחדל, Google Cloud מצפין נתונים במעבר. |
|
בלש |
Security Command Center |
עוזר לכם לזהות טעויות בהגדרות ופעילות זדונית בארגון שלכם. Google Cloud |
ארכיטקטורה רציפה |
בודקת באופן רציף את הארגון שלכם בהתאם לסדרה של כללי מדיניות OPA שהגדרתם. Google Cloud |
|
שירות המלצות IAM |
מנתח את הרשאות המשתמשים ומציע הצעות לצמצום ההרשאות כדי לאכוף את העיקרון של הרשאות מינימליות. |
|
תובנות לגבי חומת האש |
מנתח כללים של חומת אש, מזהה כללים של חומת אש עם הרשאות רחבות מדי ומציע חומות אש מגבילות יותר כדי לשפר את רמת האבטחה הכוללת. |
|
Cloud Logging |
הוא מספק תצוגה של פעילות המערכת ועוזר לזהות אנומליות ופעילות זדונית. |
|
Cloud Monitoring |
עוקב אחרי אותות ואירועים מרכזיים שיכולים לעזור לזהות פעילות חשודה. |
|
מניעתי |
מדיניות הארגון |
מאפשר לכם לשלוט בפעולות בארגון שלכם ולהגביל אותן. Google Cloud |
Workflows
בקטעים הבאים מפורט תהליך העבודה של יוצר הנתונים ותהליך העבודה של צרכן הנתונים, כדי להבטיח אמצעי בקרה מתאימים לגישה על סמך רגישות הנתונים ותפקידי המשתמשים.
תהליך העבודה של מפיק הנתונים
בתרשים הבא מתוארת ההגנה על הנתונים במהלך ההעברה שלהם ל-BigQuery.
תהליך העבודה להעברת נתונים הוא כזה:
- אפליקציה שמשולבת עם איחוד שירותי אימות הזהות של עומסי עבודה משתמשת ב-Cloud KMS כדי לפענח מפתח הצפנה עטוף.
- האפליקציה משתמשת בספריית Tink כדי להסיר פרטי זיהוי מהנתונים או להצפין אותם באמצעות תבנית.
- האפליקציה מעבירה נתונים לפרויקט ההטמעה ב- Google Cloud.
- הנתונים מגיעים אל Cloud Storage, BigQuery או Pub/Sub.
- בפרויקט ההטמעה, הנתונים מפוענחים או שמזוהים מחדש באמצעות תבנית.
- הנתונים המפוענחים מוצפנים או מוסתרים על סמך תבנית אחרת להסרת פרטים מזהים, ואז ממוקמים בפרויקט הלא סודי. התגים מוחלים על ידי מנוע התיוג לפי הצורך.
- הנתונים מהפרויקט הלא סודי מועברים לפרויקט הסודי ומזוהים מחדש.
מותרת גישה לנתונים הבאים:
- משתמשים שיש להם גישה לפרויקט הסודי יכולים לגשת לכל הנתונים הגולמיים בטקסט לא מוצפן.
- משתמשים שיש להם גישה לפרויקט לא סודי יכולים לגשת לנתונים מוסווים, לנתונים שעברו טוקניזציה או לנתונים מוצפנים, על סמך התגים שמשויכים לנתונים וההרשאות שלהם.
תהליך העבודה של צרכן הנתונים
בשלבים הבאים מוסבר איך צרכן יכול לגשת לנתונים שמאוחסנים ב-BigQuery.
- הצרכן מחפש נכסי נתונים באמצעות Data Catalog.
- אחרי שהצרכן מוצא את הנכסים שהוא מחפש, הוא מבקש גישה לנכסי הנתונים.
- בעל הנתונים מחליט אם להעניק גישה לנכסים.
- אם הצרכן מקבל גישה, הוא יכול להשתמש במחברת ובקטלוג הפתרונות כדי ליצור סביבה שבה הוא יכול לנתח ולשנות את נכסי הנתונים.
מסכם הכול
במאגר GitHub מפורטות הוראות להטמעה של רשת הנתונים ב-Google Cloud אחרי שמטמיעים את הבסיס של מהדורת Enterprise. תהליך הפריסה של הארכיטקטורה כולל שינוי של מאגרי התשתית הקיימים ופריסה של רכיבים חדשים שספציפיים לרשת נתונים.
צריך לבצע את השלבים הבאים:
- צריך לוודא שכל התנאים המוקדמים מתקיימים, כולל התנאים הבאים:
- מתקינים את Google Cloud CLI, Terraform, Tink, Java ו-Go.
- פורסים את התוכנית של Enterprise Foundations (גרסה 4.1).
- צריך לתחזק את המאגרים המקומיים הבאים:
gcp-data-mesh-foundationsgcp-bootstrapgcp-environmentsgcp-networksgcp-orggcp-projects
- משנים את תוכנית הבסיס הקיימת ואז פורסים את האפליקציות של רשת הנתונים. לגבי כל פריט, משלימים את הפרטים הבאים:
- במאגר היעד, מוציאים את הענף
Plan. - כדי להוסיף רכיבים של רשת נתונים, מעתיקים את הקבצים והספריות הרלוונטיים מ-
gcp-data-mesh-foundationsלספריית הבסיס המתאימה. להחליף קבצים כשנדרש. - מעדכנים את המשתנים, התפקידים וההגדרות של רשת הנתונים בקובצי Terraform (לדוגמה,
*.tfvarsו-*.tf). מגדירים את הטוקנים של GitHub כמשתני סביבה. - מבצעים את הפעולות Terraform initialize, plan ו-apply בכל מאגר.
- שומרים את השינויים, מעבירים את הקוד למאגר המרוחק, יוצרים בקשות משיכה (pull request) וממזגים לסביבות הפיתוח, לסביבות שאינן ייצור ולסביבות הייצור.
- במאגר היעד, מוציאים את הענף
המאמרים הבאים
- מידע על הארכיטקטורה והפונקציות ב-data mesh
- ייבוא נתונים מ- Google Cloud למחסן נתונים מאובטח של BigQuery.
- איך מטמיעים את מסגרת אמצעי הבקרה למפתחות CDMC במחסן נתונים של BigQuery
- מידע נוסף על תוכנית הבסיס של Enterprise