Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

פריסת פלטפורמה ארגונית לניהול נתונים ולניתוח נתונים

Last reviewed 2025-04-04 UTC

פלטפורמה לניהול נתונים ולניתוח נתונים בארגון מספקת סביבה מבודדת שבה אפשר לאחסן מידע רגיש, לנתח אותו ולבצע בו מניפולציות, תוך שמירה על אמצעי בקרה לאבטחה. אתם יכולים להשתמש בארכיטקטורת רשת נתונים ארגונית כדי לפרוס פלטפורמה ב- Google Cloud לניהול נתונים ולניתוח נתונים. הארכיטקטורה מיועדת לעבודה בסביבה היברידית, שבה רכיבים מקיימים אינטראקציה עם הרכיבים הקיימים שלכם במקום ועם תהליכי ההפעלה. Google Cloud

ארכיטקטורת רשת הנתונים הארגונית כוללת את הרכיבים הבאים:

מאגר ב-GitHub שמכיל קבוצה של הגדרות, סקריפטים וקוד של Terraform לבניית הרכיבים הבאים:
- פרויקט משילות שמאפשר לכם להשתמש ביישום של Google של מסגרת אמצעי הבקרה למפתחות של Cloud Data Management Capabilities (CDMC).
- דוגמה לפלטפורמת נתונים שתומכת בתהליכי עבודה אינטראקטיביים ובתהליכי עבודה של ייצור.
- סביבת ייצור בפלטפורמת הנתונים שתומכת בכמה דומיינים של נתונים. תחומי נתונים הם קבוצות לוגיות של רכיבי נתונים.
- סביבת צרכנים בפלטפורמת הנתונים שתומכת בכמה פרויקטים של צרכנים.
- שירות להעברת נתונים שמשתמש באיחוד שירותי אימות הזהות של עומסי עבודה ובספריית ההצפנה Tink כדי לעזור לכם להעביר נתונים אל Google Cloud באופן מאובטח.
- דוגמה לדומיין נתונים שמכיל פרויקטים של הטמעה, מידע לא סודי ומידע סודי.
- דוגמה למערכת גישה לנתונים שמאפשרת לצרכני נתונים לבקש גישה למערכי נתונים, ולבעלי הנתונים להעניק גישה למערכי הנתונים האלה. הדוגמה כוללת גם כלי לניהול תהליכי עבודה שמשנה את הרשאות ה-IAM של מערכי הנתונים בהתאם.
מדריך לארכיטקטורה, לעיצוב, לאמצעי בקרה לאבטחה ולתהליכים תפעוליים שמשמשים להטמעה של הארכיטקטורה הזו (המסמך הזה).

ארכיטקטורת רשת הנתונים הארגונית מתוכננת להיות תואמת לתוכנית הבסיס הארגונית. תוכנית ה-blueprint של Enterprise Foundations מספקת מספר שירותים ברמת הבסיס שהארכיטקטורה הזו מסתמכת עליהם, כמו רשתות VPC ורישום ביומן. אפשר לפרוס את הארכיטקטורה הזו בלי לפרוס את תוכנית הבסיס של Enterprise אםGoogle Cloud הסביבה מספקת את הפונקציונליות הנדרשת.

המסמך הזה מיועד לארכיטקטים של ענן, למדעני נתונים, למהנדסי נתונים ולארכיטקטים של אבטחה שיכולים להשתמש בארכיטקטורה כדי לבנות ולפרוס שירותי נתונים מקיפים ב- Google Cloud. ההנחה היא שאתם מכירים את המושגים של רשתות נתונים, Google Cloudשירותי נתונים ו Google Cloud הטמעה של מסגרת CDMC.

ארכיטקטורה

ארכיטקטורת רשת נתונים ארגונית מבוססת על גישה שכבתית כדי לספק את היכולות שמאפשרות קליטת נתונים, עיבוד נתונים וניהול נתונים. הארכיטקטורה מיועדת לפריסה ולשליטה באמצעות תהליך עבודה של CI/CD. בתרשים הבא מוצג הקשר בין שכבת הנתונים שנפרסת על ידי הארכיטקטורה הזו לבין שכבות אחרות בסביבה שלכם.

ארכיטקטורת רשת נתונים.

התרשים הזה כולל את הפריטים הבאים:

Google Cloud תשתית מספקת יכולות אבטחה כמו הצפנה במנוחה והצפנה בתנועה, וגם אבני בניין בסיסיות כמו מחשוב ואחסון.
התשתית הארגונית מספקת בסיס של משאבים כמו זהויות, רשתות, רישום ביומן, מערכות מעקב ופריסה, שמאפשרים לכם להשתמש ב- Google Cloud לעומסי העבודה של הנתונים.
שכבת הנתונים מספקת יכולות שונות כמו קליטת נתונים, אחסון נתונים, בקרת גישה לנתונים, משילות נתונים, מעקב אחרי נתונים ושיתוף נתונים.
שכבת האפליקציה מייצגת אפליקציות שונות שמשתמשות בנכסים של שכבת הנתונים.
‫CI/CD מספק כלים לאוטומציה של הקצאה, הגדרה, ניהול ופריסה של תשתית, תהליכי עבודה ורכיבי תוכנה. הרכיבים האלה עוזרים לכם לוודא שהפריסות עקביות, אמינות וניתנות לביקורת, למזער שגיאות ידניות ולזרז את מחזור הפיתוח הכולל.

כדי להראות איך משתמשים בסביבת הנתונים, הארכיטקטורה כוללת תהליך עבודה לדוגמה של נתונים. תהליך העבודה לדוגמה של הנתונים כולל את התהליכים הבאים: משילות מידע (data governance), הטמעת נתונים, עיבוד נתונים, שיתוף נתונים וצריכת נתונים.

החלטות אדריכליות מרכזיות

בטבלה הבאה מפורטות ההחלטות הכלליות לגבי הארכיטקטורה.

אזור ההחלטה	החלטה
Google Cloud ארכיטקטורה
היררכיית המשאבים	הארכיטקטורה משתמשת בהיררכיית המשאבים מתוכנית הבסיס של הארגון.
Networking	הארכיטקטורה כוללת דוגמה לשירות להעברת נתונים שמשתמש באיחוד שירותי אימות הזהות של עומסי עבודה ובספריית Tink.
תפקידים והרשאות IAM	הארכיטקטורה כוללת תפקידים של יוצרי נתונים מפולחים, תפקידים של צרכני נתונים, תפקידים של משילות מידע ותפקידים של פלטפורמת נתונים.
שירותי נתונים נפוצים
מטא-נתונים	הארכיטקטורה כוללת את השימוש ב-Data Catalog כדי לנהל את המטא-נתונים של הנתונים.
ניהול מדיניות מרכזי	כדי לנהל מדיניות, הארכיטקטורה משתמשת בהטמעה של מסגרת CDMC ב- Google Cloud.
ניהול הרשאות גישה לנתונים	כדי לשלוט בגישה לנתונים, הארכיטקטורה כוללת תהליך עצמאי שבו צרכני הנתונים צריכים לבקש גישה לנכסי הנתונים מבעלי הנתונים.
איכות הנתונים	הארכיטקטורה כוללת את השימוש ב-Cloud Data Quality Engine כדי להגדיר ולהפעיל כללים לאיכות הנתונים בעמודות ספציפיות בטבלה, ולמדוד את איכות הנתונים על סמך מדדים כמו נכונות ושלמות.
אבטחת מידע	הארכיטקטורה משתמשת בתיוג, בהצפנה, בהתממת מידע, בשימוש באסימונים ובאמצעי בקרה של IAM כדי לספק אבטחת נתונים.
דומיין נתונים
סביבות נתונים	הארכיטקטורה כוללת שלושה סביבות. שתי סביבות (ללא ייצור וייצור) הן סביבות תפעוליות שמופעלות על ידי צינורות עיבוד נתונים. סביבה אחת (פיתוח) היא סביבה אינטראקטיבית.
בעלי הנתונים	בעלי הנתונים מבצעים המרה, עיבוד וחשיפה של נכסי נתונים, ומעניקים גישה אליהם.
צרכני נתונים	צרכני נתונים מבקשים גישה לנכסי נתונים.
הצטרפות ותפעול
פייפליינים	הארכיטקטורה משתמשת בצינורות הבאים כדי לפרוס משאבים: צינור עיבוד נתונים של Foundation צינור עיבוד נתונים של התשתית צינורות עיבוד נתונים של Artifact צינור של קטלוג שירותים
מאגרים	כל צינור עיבוד נתונים משתמש במאגר נפרד כדי לאפשר הפרדה של האחריות.
זרימת התהליך	התהליך מחייב ששינויים בסביבת הייצור יכללו מגיש ומאשר.
Cloud operations
כרטיסי ניקוד של מוצרים מבוססי-נתונים	מנוע הדוחות יוצר כרטיסי ניקוד של מוצרי נתונים.
Cloud Logging	הארכיטקטורה משתמשת בתשתית הרישום ביומן מתוכנית הבסיס לארגונים.
Cloud Monitoring	הארכיטקטורה משתמשת בתשתית הניטור מתוכנית הבסיס הארגונית.

זהות: מיפוי תפקידים לקבוצות

ה-data mesh מתבסס על הארכיטקטורה הקיימת של ניהול מחזור החיים של הזהויות, ההרשאות והאימות בתוכנית הבסיסית של הארגון. לא מקצים תפקידים למשתמשים ישירות, אלא משתמשים בקבוצות כשיטה העיקרית להקצאת תפקידים והרשאות ב-IAM. תפקידים והרשאות ב-IAM מוקצים במהלך יצירת הפרויקט דרך צינור הנתונים של התוכנית הבסיסית.

ב-data mesh, קבוצות משויכות לאחד מארבעה תחומים מרכזיים: תשתית, ניהול נתונים, יצרני נתונים מבוססי-דומיין וצרכני נתונים מבוססי-דומיין.

היקפי ההרשאות של הקבוצות האלה הם:

היקף ההרשאות של קבוצת התשתית הוא רשת הנתונים בכללותה.
היקף ההרשאות של קבוצות משילות המידע הוא פרויקט משילות המידע.
ההרשאות של צרכנים ומפיקים שמבוססות על דומיין מוגבלות לדומיין הנתונים שלהם.

בטבלאות הבאות מפורטים התפקידים השונים שמשמשים בהטמעה של רשת הנתונים הזו וההרשאות שמשויכות לכל תפקיד.

תשתית

קבוצה	תיאור	תפקידים
`data-mesh-ops@example.com`	אדמינים כלליים של רשת הנתונים	`roles/owner` (פלטפורמת נתונים)

משילות מידע (data governance)

קבוצה	תיאור	תפקידים
`gcp-dm-governance-admins@example.com`	אדמינים של פרויקט משילות המידע	‫`roles/owner` בפרויקט של משילות מידע
`gcp-dm-governance-developers@example.com`	מפתחים שיוצרים ומתחזקים את רכיבי המשילות של הנתונים	כמה תפקידים בפרויקט של משילות מידע (data governance), כולל `roles/viewer`, תפקידים ב-BigQuery ותפקידים ב-Data Catalog
`gcp-dm-governance-data-readers@example.com`	קוראי מידע על משילות מידע (data governance)	`roles/viewer`
`gcp-dm-governance-security-administrator@example.com`	אדמינים של אבטחה בפרויקט השליטה	‫`roles/orgpolicy.policyAdmin` ו-`roles/iam.securityReviewer`
`gcp-dm-governance-tag-template-users@example.com`	קבוצה עם הרשאה להשתמש בתבניות תגים	`roles/datacatalog.tagTemplateUser`
`gcp-dm-governance-tag-users@example.com`	קבוצה עם הרשאה להשתמש בתבניות תגים ולהוסיף תגים	‫`roles/datacatalog.tagTemplateUser` ו-`roles/datacatalog.tagEditor`
`gcp-dm-governance-scc-notifications@example.com`	קבוצת חשבונות שירות להתראות של Security Command Center	אין. זו קבוצה לחברות, ונוצר חשבון שירות עם השם הזה, שיש לו את ההרשאות הנדרשות.

מפיקי נתונים שמבוססים על דומיין

קבוצה	תיאור	תפקידים
`gcp-dm-{data_domain_name}-admins@example.com`	אדמינים של דומיין נתונים ספציפי	‫`roles/owner` בפרויקט של דומיין הנתונים
`gcp-dm-{data_domain_name}-developers@example.com`	מפתחים שיוצרים מוצרי נתונים ומתחזקים אותם בתחום נתונים	כמה תפקידים בפרויקט של דומיין הנתונים, כולל `roles/viewer`, תפקידים ב-BigQuery ותפקידים ב-Cloud Storage
`gcp-dm-{data_domain_name}-data-readers@example.com`	משתמשים שיכולים לקרוא את המידע על תחום הנתונים	`roles/viewer`
`gcp-dm-{data_domain_name}-metadata-editors@{var.domain}`	עורכים של רשומות ב-Data Catalog	תפקידים לעריכת רשומות בקטלוג הנתונים
`gcp-dm-{data_domain_name}-data-stewards@example.com`	אחראים על הנתונים בדומיין הנתונים	הרשאות לניהול מטא-נתונים והיבטים של משילות מידע (data governance)

צרכני נתונים שמבוססים על דומיין

קבוצה	תיאור	תפקידים
`gcp-dm-consumer-{project_name}-admins@example.com`	אדמינים של פרויקט צרכן ספציפי	‫`roles/owner` בפרויקט לצרכן
`gcp-dm-consumer-{project_name}-developers@example.com`	מפתחים שעובדים בפרויקט של צרכן	כמה תפקידים בפרויקט הצרכן, כולל `roles/viewer` ותפקידים ב-BigQuery
`gcp-dm-consumer-{project_name}-data-readers@example.com`	קוראים של מידע על פרויקט צרכני	`roles/viewer`

מבנה ארגוני

כדי להבדיל בין פעולות ייצור לבין נתוני ייצור, הארכיטקטורה משתמשת בסביבות שונות לפיתוח ולפרסום של תהליכי עבודה. פעולות הייצור כוללות את השליטה, האפשרות למעקב והחזרה על תהליך העבודה, ואת האפשרות לבדוק את התוצאות של תהליך העבודה. נתוני ייצור מתייחסים לנתונים רגישים פוטנציאליים שדרושים לכם כדי להפעיל את הארגון. כל הסביבות מתוכננות כך שיכללו אמצעי אבטחה שיאפשרו לכם להטמיע את הנתונים ולבצע בהם פעולות.

כדי לעזור למדעני נתונים ולמהנדסים, הארכיטקטורה כוללת סביבה אינטראקטיבית שבה מפתחים יכולים לעבוד ישירות עם הסביבה ולהוסיף שירותים באמצעות קטלוג של פתרונות שנבחרו בקפידה. סביבות תפעוליות מופעלות באמצעות צינורות עם ארכיטקטורה והגדרות מקודדות.

הארכיטקטורה הזו משתמשת במבנה הארגוני של תוכנית הבסיס של הארגון כבסיס לפריסת עומסי עבודה של נתונים. בדיאגרמה הבאה מוצגים הפרויקטים והתיקיות ברמה העליונה שבהם נעשה שימוש בארכיטקטורת רשת הנתונים של הארגון.

מבנה ארגוני של רשת נתונים.

בטבלה הבאה מתוארים הפרויקטים והתיקיות ברמה העליונה שמהווים חלק מהארכיטקטורה.

תיקייה	רכיב	תיאור
`common`	`prj-c-artifact-pipeline`	כולל את צינור עיבוד הנתונים לפריסה שמשמש לבניית ארטיפקטים של קוד בארכיטקטורה.
	`prj-c-service-catalog`	מכילה את התשתית שבה משתמש Service Catalog כדי לפרוס משאבים בסביבה האינטראקטיבית.
	`prj-c-datagovernance`	מכיל את כל המשאבים שמשמשים את ההטמעה של Google CloudFramework ה-CDMC.
`development`	`fldr-d-dataplatform`	מכיל את הפרויקטים והמשאבים של פלטפורמת הנתונים לפיתוח תרחישי שימוש במצב אינטראקטיבי.
`non-production`	`fldr-n-dataplatform`	מכיל את הפרויקטים והמשאבים של פלטפורמת הנתונים לשימוש בתרחישי בדיקה שרוצים לפרוס בסביבה תפעולית.
`production`	`fldr-p-dataplatform`	מכיל את הפרויקטים והמשאבים של פלטפורמת הנתונים לפריסה בסביבת ייצור.

תיקייה בפלטפורמת נתונים

התיקייה של פלטפורמת הנתונים מכילה את כל הרכיבים של מישור הנתונים וחלק מהמשאבים של CDMC. בנוסף, התיקייה של פלטפורמת הנתונים והפרויקט של משילות מידע מכילים את המשאבים של CDMC. בתרשים הבא מוצגות התיקיות והפרויקטים שנפרסו בתיקיית פלטפורמת הנתונים.

התיקייה של פלטפורמת הנתונים

כל תיקייה של פלטפורמת נתונים כוללת תיקיית סביבה (ייצור, לא ייצור ופיתוח). בטבלה הבאה מתוארים התיקיות בתוך כל תיקייה של פלטפורמת נתונים.

תיקיות	תיאור
מפיקים	מכיל את דומייני הנתונים.
צרכנים	מכיל את הפרויקטים של הצרכן.
דומיין נתונים	מכיל את הפרויקטים שמשויכים לדומיין מסוים.

תיקיית המפיקים

כל תיקיית יצרנים כוללת דומיין נתונים אחד או יותר. דומיין נתונים הוא קיבוץ לוגי של רכיבי נתונים שמשותף להם משמעות, מטרה או הקשר עסקי. דומיינים של נתונים מאפשרים לסווג ולארגן נכסי נתונים בארגון. בתרשים הבא מוצגת המבנה של דומיין נתונים. הארכיטקטורה פורסת פרויקטים בתיקיית פלטפורמת הנתונים לכל סביבה.

התיקייה 'יוצרים'.

בטבלה הבאה מתוארים הפרויקטים שנפרסים בתיקיית פלטפורמת הנתונים לכל סביבה.

פרויקט	תיאור
הטמעה	פרויקט ההטמעה מטמיע נתונים בדומיין הנתונים. הארכיטקטורה כוללת דוגמאות לאופן שבו אפשר להזרים נתונים ל-BigQuery, ל-Cloud Storage ול-Pub/Sub. פרויקט ההטמעה מכיל גם דוגמאות של Dataflow ו-Managed Service for Apache Airflow שבהן אפשר להשתמש כדי לתזמן את הטרנספורמציה וההעברה של הנתונים שהוטמעו.
לא סודי	הפרויקט הלא סודי מכיל נתונים שעברו הסרת פרטים מזהים. אתם יכולים להשתמש בטכניקות כמו התממת מידע, שימוש בקונטיינרים, הצפנה, שימוש באסימונים או טשטוש של נתונים. אפשר להשתמש בתגי מדיניות כדי לקבוע איך הנתונים יוצגו.
סודי	הפרויקט הסודי מכיל נתונים בטקסט פשוט. אפשר לשלוט בגישה באמצעות הרשאות IAM.

תיקיית צרכן

תיקיית הצרכנים מכילה פרויקטים של צרכנים. פרויקטים של צרכנים מספקים מנגנון לפילוח משתמשי נתונים על סמך גבולות האמון הנדרשים שלהם. כל פרויקט מוקצה לקבוצת משתמשים נפרדת, והקבוצה מקבלת גישה לנכסי הנתונים הנדרשים על בסיס פרויקט אחר פרויקט. אתם יכולים להשתמש בפרויקט הצרכנים כדי לאסוף, לנתח ולהרחיב את הנתונים של הקבוצה.

תיקייה משותפת

התיקייה common מכילה את השירותים שמשמשים סביבות ופרויקטים שונים. בקטע הזה מתוארות היכולות שנוספות לתיקייה המשותפת כדי להפעיל את רשת הנתונים הארגונית.

ארכיטקטורת CDMC

הארכיטקטורה משתמשת בארכיטקטורת CDMC לצורך משילות נתונים. פונקציות משילות הנתונים נמצאות בפרויקט משילות הנתונים בתיקייה המשותפת. בתרשים הבא מוצגים הרכיבים של ארכיטקטורת CDMC. המספרים בתרשים מייצגים את אמצעי הבקרה למפתחות שמטופלים באמצעות שירותי Google Cloud.

ארכיטקטורת ה-CDMC.

בטבלה הבאה מתוארים הרכיבים של ארכיטקטורת CDMC שבהם נעשה שימוש בארכיטקטורת רשת הנתונים הארגונית.

רכיב CDMC	שירותGoogle Cloud	תיאור
רכיבים של גישה ומחזור חיים
ניהול מפתחות	Cloud KMS	שירות שמנהל באופן מאובטח מפתחות הצפנה שמגנים על נתונים רגישים.
הכלי לניהול רשומות	Cloud Run	אפליקציה שמנהלת יומנים מקיפים ורשומות של פעילויות עיבוד נתונים, כדי לאפשר לארגונים לעקוב אחר השימוש בנתונים ולבצע ביקורת עליו.
מדיניות בנושא העברה לארכיון	BigQuery	טבלה ב-BigQuery שמכילה את מדיניות האחסון של הנתונים.
הרשאות	BigQuery	טבלה ב-BigQuery שמאחסנת מידע על מי יכול לגשת לנתונים רגישים. הטבלה הזו מוודאת שרק משתמשים מורשים יכולים לגשת לנתונים ספציפיים על סמך התפקידים וההרשאות שלהם.
סריקת רכיבים
אובדן נתונים	Sensitive Data Protection	שירות שמשמש לבדיקת נכסים כדי לאתר מידע אישי רגיש.
ממצאים של DLP	BigQuery	טבלה ב-BigQuery שכוללת קטלוג של סיווגי נתונים בפלטפורמת הנתונים.
מדיניות	BigQuery	טבלה ב-BigQuery שמכילה שיטות עקביות של משילות מידע (data governance) (לדוגמה, סוגי גישה לנתונים).
ייצוא נתוני החיוב	BigQuery	טבלה שמאחסנת מידע על עלויות שיוצא מחיוב ב-Cloud כדי לאפשר ניתוח של מדדי עלות שמשויכים לנכסי נתונים.
Cloud Data Quality Engine	Cloud Run	אפליקציה שמריצה בדיקות של איכות הנתונים לטבלאות ולעמודות.
ממצאים לגבי איכות הנתונים	BigQuery	טבלה ב-BigQuery שמתעדת את הפערים שזוהו בין כללי איכות הנתונים שהוגדרו לבין האיכות בפועל של נכסי הנתונים.
רכיבי דיווח
Scheduler	Cloud Scheduler	שירות שקובע מתי Cloud Data Quality Engine פועל ומתי מתבצעת בדיקת Sensitive Data Protection.
מנוע הדוחות	Cloud Run	אפליקציה שמפיקה דוחות שעוזרים לעקוב אחרי אמצעי הבקרה של מסגרת CDMC ולמדוד את רמת ההקפדה עליהם.
ממצאים ונכסים	‫BigQuery ו-Pub/Sub	דוח של BigQuery על חוסר התאמה או חוסר עקביות באמצעי הבקרה לניהול נתונים, כמו תגים חסרים, סיווגים שגויים או מיקומי אחסון שלא עומדים בדרישות.
ייצוא תגים	BigQuery	טבלה ב-BigQuery שמכילה מידע על תגים שחולץ מ-Data Catalog.
רכיבים אחרים
ניהול המדיניות	Organization Policy Service	שירות שמגדיר ואוכף הגבלות על המיקום הגיאוגרפי שבו אפשר לאחסן נתונים.
מדיניות גישה שמבוססת על מאפיינים	Access Context Manager	שירות שמגדיר ואוכף מדיניות גישה פרטנית שמבוססת על מאפיינים, כך שרק משתמשים מורשים ממיקומים וממכשירים מותרים יכולים לגשת למידע רגיש.
מטא-נתונים	Data Catalog	שירות שמאחסן מידע על מטא-נתונים לגבי הטבלאות שנמצאות בשימוש ברשת הנתונים.
Tag Engine	Cloud Run	אפליקציה שמוסיפה תגים לנתונים בטבלאות של BigQuery.
דוחות CDMC	Data Studio	לוחות בקרה שמאפשרים לנתח נתונים בדוחות שנוצרו על ידי מנועי הארכיטקטורה של CDMC.

הטמעה של CDMC

בטבלה הבאה מתואר איך הארכיטקטורה מטמיעה את אמצעי הבקרה למפתחות במסגרת CDMC.

דרישת הבקרה של CDMC	הטמעה
עמידה בדרישות של אמצעי הבקרה על הנתונים	מנוע הדוחות מזהה נכסי נתונים שלא עומדים בדרישות ומפרסם ממצאים בנושא ב-Pub/Sub. הממצאים האלה נטענים גם ל-BigQuery לצורך דיווח באמצעות Data Studio.
הבעלות על הנתונים היא גם לנתונים שהועברו וגם לנתונים שנוצרו בענן	המטא-נתונים הטכניים מ-BigQuery נשמרים אוטומטית ב-Data Catalog. Tag Engine מחיל תגי מטא-נתונים עסקיים כמו שם הבעלים ורמת הרגישות מטבלת הפניה, כדי לוודא שכל המידע האישי הרגיש מתויג בפרטי הבעלים לצורך תאימות. תהליך התיוג האוטומטי הזה עוזר לספק משילות מידע (data governance) ותאימות על ידי זיהוי מידע אישי רגיש ותיוגם בפרטי הבעלים המתאימים.
פיקוח על מקור הנתונים ועל השימוש בהם בעזרת אוטומציה	‫Data Catalog מסווג נכסי נתונים על ידי תיוגם בדגל `is_authoritative` כשהם מקור סמכותי. המידע נשמר באופן אוטומטי ב-Data Catalog, יחד עם המטא-נתונים הטכניים, במרשם נתונים. Report Engine ו-Tag Engine יכולים לאמת את מרשם הנתונים של מקורות סמכותיים ולדווח עליו באמצעות Pub/Sub.
ניהול ריבונות הנתונים והמעבר בין גבולות	השירות של מדיניות הארגון מגדיר את האזורים המותרים לאחסון נכסי נתונים, ו-Access Context Manager מגביל את הגישה על סמך מיקום המשתמש. מיקומי האחסון המאושרים מאוחסנים ב-Data Catalog בתור תגי מטא-נתונים. מנוע הדוחות משווה את התגים האלה למיקום בפועל של נכסי הנתונים ב-BigQuery ומפרסם את כל הפערים כתוצאות באמצעות Pub/Sub. ‫Security Command Center מספק שכבת ניטור נוספת על ידי יצירת ממצאי נקודות חולשה אם הנתונים מאוחסנים או שיש גישה אליהם מחוץ למדיניות המוגדרת.
הטמעת קטלוגים של נתונים ושימוש בהם תוך יכולת פעולה הדדית	ב-Data Catalog נשמרים המטא-נתונים הטכניים של כל נכסי הנתונים ב-BigQuery, והם מתעדכנים באופן שוטף. כך נוצר Data Catalog שמסתנכרן באופן רציף. ‫Data Catalog מוודא שכל הטבלאות והתצוגות החדשות או ששונו יתווספו לקטלוג באופן מיידי, וכך ישמור על מלאי עדכני של נכסי נתונים.
הגדרת קטגוריות וסיווג הנתונים	‫Sensitive Data Protection בודק את הנתונים ב-BigQuery ומזהה סוגים של מידע רגיש. לאחר מכן, הממצאים האלה מדורגים על סמך טבלת סיווג, ורמת הרגישות הגבוהה ביותר מוקצית כתג ב-Data Catalog ברמת העמודה והטבלה. Tag Engine מנהל את התהליך הזה על ידי עדכון של Data Catalog בתגי רגישות בכל פעם שמוסיפים נכסי נתונים חדשים או משנים נכסים קיימים. התהליך הזה מבטיח סיווג של הנתונים לפי רמת הרגישות שלהם, שמתעדכן כל הזמן. אתם יכולים לעקוב אחרי הסיווג ולדווח עליו באמצעות Pub/Sub וכלי דיווח משולבים.
ניהול ואכיפה של הרשאות הגישה לנתונים, תוך מעקב אחרי הגישה	תגי מדיניות ב-BigQuery שולטים בגישה למידע אישי רגיש ברמת העמודה, כדי להבטיח שרק משתמשים מורשים יוכלו לגשת לנתונים ספציפיים על סמך תג המדיניות שהוקצה להם. ‫IAM מנהל את הגישה הכוללת למחסן הנתונים, ו-Data Catalog מאחסן סיווגי רגישות. מתבצעות בדיקות קבועות כדי לוודא שלכל המידע האישי הרגיש יש תגי מדיניות תואמים, ואם יש אי התאמות, הן מדווחות באמצעות Pub/Sub לצורך תיקון.
הקפדה על אתיקה בשימוש בנתונים ובגישה אליהם, וניהול תוצרי המידע	הסכמי שיתוף הנתונים של הספקים ושל הצרכנים מאוחסנים במחסן נתונים ייעודי ב-BigQuery כדי לשלוט במטרות השימוש. ‫Data Catalog מתייג נכסי נתונים עם פרטי ההסכם של הספק, בעוד שההסכמים של הצרכנים מקושרים לקישורי IAM לצורך בקרת גישה. תוויות של שאילתות אוכפות את מטרות השימוש, ומחייבות את הצרכנים לציין מטרה חוקית כששולחים שאילתה לקבלת מידע אישי רגיש. המערכת מאמתת את המטרה מול ההרשאות שלהם ב-BigQuery. מסלול ביקורת ב-BigQuery עוקב אחרי כל הגישה לנתונים ומבטיח עמידה בהסכמי שיתוף הנתונים.
אבטחת הנתונים ותיעוד אמצעי הבקרה	ההצפנה במצב מנוחה שמוגדרת כברירת מחדל ב-Google עוזרת להגן על נתונים שמאוחסנים בדיסק. ‏Cloud KMS תומך במפתחות הצפנה בניהול הלקוח (CMEK) לניהול מפתחות משופר. ב-BigQuery מיושמת הסתרת נתונים דינמית ברמת העמודה להסרת פרטי הזיהוי, והוא תומך בהסרת פרטי הזיהוי ברמת האפליקציה במהלך הטמעת הנתונים. ב-Data Catalog מאוחסנים תגי מטא-נתונים להצפנה ולטכניקות להסרת פרטי הזיהוי שמוחלות על נכסי נתונים. בדיקות אוטומטיות מוודאות ששיטות ההצפנה והסרת פרטי הזיהוי תואמות למדיניות אבטחה מוגדרת מראש, וכל אי התאמה מדווחת כממצא באמצעות Pub/Sub.
A data privacy framework is defined and operational	‫Data Catalog מתייג נכסי מידע אישי רגיש במידע רלוונטי להערכת ההשפעה, כמו מיקום הנושא וקישורים לדוח ההערכה. ‫Tag Engine מחיל את התגים האלה על סמך רגישות הנתונים וטבלת מדיניות ב-BigQuery, שבה מוגדרות דרישות ההערכה על סמך מיקום הנתונים והנושא. תהליך התיוג האוטומטי הזה מאפשר מעקב רציף ודיווח על עמידה בדרישות של הערכת ההשפעה, כדי לוודא שהערכות השפעה על הגנת נתונים (DPIAs) או הערכות השפעה על הפרטיות (PIAs) מתבצעות כשצריך.
תכנון וניהול מחזור החיים של הנתונים	‫Data Catalog מתייג נכסי נתונים באמצעות מדיניות שמירת נתונים, ומציין תקופות שמירה ופעולות תפוגה (כמו ארכיון או מחיקה). הכלי לניהול רשומות מבצע אוטומציה של אכיפת המדיניות הזו על ידי מחיקה או העברה לארכיון של טבלאות BigQuery על סמך התגים שהוגדרו. האכיפה הזו מבטיחה עמידה במדיניות מחזור החיים של הנתונים ושמירה על תאימות לדרישות שמירת הנתונים. אם מתגלים פערים, הם מדווחים באמצעות Pub/Sub.
ניהול איכות הנתונים	‫Cloud Data Quality Engine מגדיר ומריץ כללים לאיכות הנתונים בעמודות טבלה שצוינו, ומודד את איכות הנתונים על סמך מדדים כמו נכונות ושלמות. התוצאות של הבדיקות האלה, כולל אחוזים וערכי סף של הצלחה, מאוחסנות כתגים ב-Data Catalog. אחסון התוצאות מאפשר מעקב רציף ודיווח על איכות הנתונים, וכל בעיה או חריגה מערכי הסף המקובלים מתפרסמת כממצא באמצעות Pub/Sub.
קביעה ויישום של עקרונות לניהול העלויות	ב-Data Catalog מאוחסנים מדדים שקשורים לעלויות של נכסי נתונים, כמו עלויות של שאילתות, עלויות של אחסון ועלויות של העברת נתונים יוצאים. המדדים האלה מחושבים באמצעות נתוני חיוב שמיוצאים מחיוב ב-Cloud ל-BigQuery. אחסון מדדים שקשורים לעלויות מאפשר מעקב מקיף אחרי העלויות וניתוח שלהן, כדי לוודא שהן עומדות במדיניות העלויות ושהשימוש במשאבים יעיל. אם יש חריגות, הן מדווחות באמצעות Pub/Sub.
הבנת מקורות הנתונים	תכונות ה-Data Lineage המובנות ב-Data Catalog עוקבות אחרי המקורות וההשתלשלות של נכסי הנתונים, ומציגות באופן חזותי את זרימת הנתונים. בנוסף, סקריפטים של הטמעת נתונים מזהים את המקור המקורי של הנתונים ב-Data Catalog ומתייגים אותו, וכך משפרים את היכולת לעקוב אחרי הנתונים עד למקור שלהם.

ניהול הרשאות גישה לנתונים

הגישה של הארכיטקטורה לנתונים נשלטת באמצעות תהליך עצמאי שמפריד בין בקרה תפעולית (לדוגמה, הפעלת משימות Dataflow) לבין בקרת גישה לנתונים. הגישה של משתמש ל Google Cloud שירות מוגדרת על ידי בעיה סביבתית או תפעולית, והיא מוקצית ומאושרת על ידי קבוצת מהנדסי ענן. הגישה של משתמש לנכסי נתונים של Google Cloud (לדוגמה, טבלה ב-BigQuery) היא עניין שקשור לפרטיות, לרגולציה או לממשל, והיא כפופה להסכם גישה בין הצדדים שמפיקים את הנתונים לבין הצדדים שצורכים אותם. הגישה נשלטת באמצעות התהליכים הבאים. בתרשים הבא מוצג איך מוקצית גישה לנתונים באמצעות האינטראקציה בין רכיבי תוכנה שונים.

ניהול הרשאות גישה לנתונים

כפי שמוצג בתרשים הקודם, תהליך ההצטרפות של גישות לנתונים מתבצע באמצעות התהליכים הבאים:

נכסי נתונים בענן נאספים ונרשמים במלאי על ידי Data Catalog.
מנהל תהליכי העבודה מאחזר את נכסי הנתונים מ-Data Catalog.
בעלי הנתונים מצורפים למרכז לניהול תהליכי עבודה.

כך פועל ניהול הרשאות הגישה לנתונים:

צרכן נתונים שולח בקשה לנכס ספציפי.
הבעלים של הנתונים בנכס מקבל התראה על הבקשה.
הבעלים של הנתונים מאשר או דוחה את הבקשה.
אם הבקשה מאושרת, מנהל זרימת העבודה מעביר את הקבוצה, הנכס והתג המשויך למיפוי IAM.
הכלי למיפוי IAM מתרגם את התגים של הכלי לניהול תהליכי עבודה להרשאות IAM, ומעניק לקבוצה שצוינה הרשאות IAM לנכס הנתונים.
כשמשתמש רוצה לגשת לנכס הנתונים, מערכת IAM בודקת את הגישה לנכס בהתאם להרשאות של הקבוצה. Google Cloud
אם יש הרשאה, המשתמש ניגש לנכס הנתונים.

Networking

תהליך אבטחת מידע מתחיל באפליקציית המקור, שיכולה להיות מקומית או בסביבה אחרת מחוץ לGoogle Cloud פרויקט היעד. לפני שמתבצעת העברה ברשת, האפליקציה הזו משתמשת ב-איחוד זהויות של עומסי עבודה כדי לבצע אימות מאובטח מול Cloud APIs. באמצעות פרטי הכניסה האלה, היא יוצרת אינטראקציה עם Cloud KMS כדי לקבל או לעטוף את המפתחות הדרושים, ואז משתמשת בספריית Tink כדי לבצע הצפנה ראשונית והסרת פרטי הזיהוי במטען הייעודי (payload) של המידע האישי הרגיש בהתאם לתבניות מוגדרות מראש.

אחרי שמטען הנתונים מוגן, צריך להעביר אותו בצורה מאובטחת אל Google Cloud פרויקט ההטמעה. באפליקציות מקומיות, אפשר להשתמש ב-Cloud Interconnect או ב-Cloud VPN. ברשתGoogle Cloud , משתמשים ב-Private Service Connect כדי לנתב את הנתונים אל נקודת הקצה של ההטמעה ברשת ה-VPC של פרויקט היעד. באמצעות Private Service Connect, אפליקציית המקור יכולה להתחבר לממשקי API של Google באמצעות כתובות IP פרטיות, וכך לוודא שהתעבורה לא חשופה לאינטרנט.

כל נתיב הרשת ושירותי היעד להטמעת נתונים (Cloud Storage,‏ BigQuery ו-Pub/Sub) בפרויקט ההטמעה מאובטחים על ידי VPC Service Controls. גבולות הגזרה האלה אוכפים גבול אבטחה, כדי להבטיח שהנתונים המוגנים שמקורם במקור יוכלו להיקלט רק בשירותיGoogle Cloud ההרשאה בפרויקט הספציפי הזה.

רישום ביומן

הארכיטקטורה הזו משתמשת ביכולות של Cloud Logging שמופיעות בתוכנית ה-blueprint של Enterprise Foundations.

פייפליינים

ארכיטקטורת רשת הנתונים הארגונית משתמשת בסדרה של צינורות עיבוד נתונים כדי להקצות את התשתית, האורקסטרציה, מערכי הנתונים, צינורות עיבוד הנתונים ורכיבי האפליקציה. צינורות עיבוד הנתונים לפריסת המשאבים בארכיטקטורה משתמשים ב-Terraform ככלי תשתית כקוד (IaC) וב-Cloud Build כשירות CI/CD לפריסת הגדרות Terraform בסביבת הארכיטקטורה. בתרשים הבא מוצג הקשר בין צינורות עיבוד הנתונים.

קשרים בפייפליין

צינורות הנתונים של התשתית ושל הבסיס הם חלק מהתוכנית של בסיסי הארגון. בטבלה הבאה מתוארת המטרה של צינורות הנתונים והמשאבים שהם מספקים.

פייפליין	הוקצה על ידי	משאבים
צינור עיבוד נתונים של Foundation	Bootstrap	תיקייה ותיקיות משנה בפלטפורמת הנתונים פרויקטים נפוצים חשבון שירות של צינור עיבוד נתונים לתשתית טריגר של Cloud Build לצינור עיבוד הנתונים של התשתית VPC משותף גבולות גזרה של VPC Service Controls
צינור עיבוד נתונים של התשתית	צינור עיבוד נתונים של Foundation	פרויקטים של צרכנים חשבון שירות של קטלוג השירותים הטריגר לפיתוח גרסת Build של Cloud לצינור של Service Catalog חשבון שירות של צינור עיבוד נתונים של ארטיפקטים הטריגר לפיתוח גרסת Build של Cloud לצינור העיבוד של הארטיפקט
צינור של קטלוג שירותים	צינור עיבוד נתונים של התשתית	משאבים שנפרסו בדלי של קטלוג השירותים
צינורות עיבוד נתונים של Artifact	צינור עיבוד נתונים של התשתית	צינורות עיבוד נתונים של ארטיפקטים יוצרים את הקונטיינרים השונים ורכיבים אחרים של בסיס הקוד שמשמש את רשת הנתונים.

לכל צינור יש קבוצה משלו של מאגרי מידע שממנו הוא שולף קוד וקבצי תצורה. בכל מאגר יש הפרדת תפקידים, כך שקבוצות שונות אחראיות על שליחת פריסות של קוד תפעולי ועל אישור שלהן.

פריסה אינטראקטיבית דרך Service Catalog

סביבות אינטראקטיביות הן סביבת הפיתוח בארכיטקטורה, והן נמצאות בתיקיית הפיתוח. הממשק הראשי של הסביבה האינטראקטיבית הוא Service Catalog, שמאפשר למפתחים להשתמש בתבניות שהוגדרו מראש כדי ליצור מופעים של שירותי Google. התבניות המוגדרות מראש האלה נקראות תבניות שירות. תבניות שירות עוזרות לכם לאכוף את מדיניות האבטחה שלכם, למשל להפוך את ההצפנה באמצעות CMEK לחובה, וגם מונעות מהמשתמשים שלכם גישה ישירה ל-Google APIs.

בתרשים הבא מוצגים הרכיבים של הסביבה האינטראקטיבית והאופן שבו מדעני נתונים פורסים משאבים.

סביבה אינטראקטיבית עם Service Catalog.

כדי לפרוס משאבים באמצעות קטלוג השירותים, מתבצעים השלבים הבאים:

מהנדס ה-MLOps מכניס תבנית משאבים של Terraform עבור Google Cloud למאגר Git.
הפקודה Git Commit מפעילה צינור עיבוד נתונים של Cloud Build.
‫Cloud Build מעתיק את התבנית ואת קובצי ההגדרות שמשויכים אליה ל-Cloud Storage.
מהנדס ה-MLOps מגדיר את הפתרונות של Service Catalog ואת Service Catalog באופן ידני. לאחר מכן, המהנדס משתף את קטלוג השירותים עם פרויקט שירות בסביבה האינטראקטיבית.
מדען הנתונים בוחר משאב מתוך קטלוג השירותים.
קטלוג השירותים פורס את התבנית בסביבה האינטראקטיבית.
המשאב מאחזר את כל סקריפטי ההגדרה הנדרשים.
מדען הנתונים יוצר אינטראקציה עם המשאבים.

צינורות עיבוד נתונים של Artifact

תהליך הטמעת הנתונים משתמש ב-Managed Airflow וב-Dataflow כדי לתזמן את התנועה והשינוי של הנתונים בדומיין הנתונים. צינור עיבוד הארטיפקטים יוצר את כל המשאבים שנדרשים להטמעת הנתונים, ומעביר את המשאבים למיקום המתאים כדי שהשירותים יוכלו לגשת אליהם. צינור עיבוד הארטיפקטים יוצר את ארטיפקטים של הקונטיינרים שמשמשים את כלי התזמון.

אמצעי בקרה לאבטחה

ארכיטקטורת רשת הנתונים הארגונית משתמשת במודל אבטחה רב-שכבתי שכולל יכולות, שירותים ויכולות אבטחה שמוגדרים באמצעות תוכנית הבסיס הארגונית. Google Cloud Google Cloudבתרשים הבא מוצגת השכבה של אמצעי הבקרה השונים לאבטחה של הארכיטקטורה.

אמצעי אבטחה בארכיטקטורת רשת הנתונים.

בטבלה הבאה מתוארים אמצעי האבטחה שמשויכים למשאבים בכל שכבה.

שכבה	משאב	בקרת אבטחה
CDMC framework	Google Cloud הטמעה של CDMC	מספקת מסגרת משילות שעוזרת לאבטח, לנהל ולשלוט בנכסי הנתונים. מידע נוסף זמין במאמר מסגרת אמצעי הבקרה למפתחות של CDMC.
פריסה	צינור עיבוד נתונים של התשתית	מספק סדרה של צינורות שפורסים תשתית, בונים קונטיינרים ויוצרים צינורות נתונים. השימוש בצינורות מאפשר ביצוע ביקורת, מעקב וחזרה על פעולות.
	צינור עיבוד נתונים של פריט מידע שנוצר בתהליך	פריסת רכיבים שונים שלא נפרסים על ידי צינור התשתית.
	תבניות Terraform	מבנה את תשתית המערכת.
	Open Policy Agent	התכונה עוזרת לוודא שהפלטפורמה עומדת בדרישות של המדיניות שנבחרה.
רשת	התחברות לשירות פרטי	מספק הגנות מפני זליגת נתונים סביב משאבי הארכיטקטורה בשכבת ה-API ובשכבת ה-IP. מאפשר לכם לתקשר עם Google Cloud APIs באמצעות כתובות IP פרטיות, כדי להימנע מחשיפת התעבורה לאינטרנט.
	רשת VPC עם כתובות IP פרטיות	עוזרת להפחית את החשיפה לאיומים באינטרנט.
	VPC Service Controls	עוזרת להגן על משאבים רגישים מפני זליגת נתונים.
	חומת אש	עוזרת להגן על רשת ה-VPC מפני גישה לא מורשית.
ניהול הרשאות גישה	Access Context Manager	היא קובעת למי תהיה גישה למשאבים ועוזרת למנוע שימוש לא מורשה במשאבים.
	איחוד שירותי אימות הזהות של עומסי עבודה	היא מייתרת את הצורך בפרטי כניסה חיצוניים להעברת נתונים אל הפלטפורמה מסביבות מקומיות.
	Data Catalog	מספק אינדקס של נכסים שזמינים למשתמשים.
	IAM	מספק גישה פרטנית.
הצפנה	Cloud KMS	מאפשר לכם לנהל את מפתחות ההצפנה והסודות שלכם, ולעזור להגן על הנתונים באמצעות הצפנה במצב מנוחה והצפנה בזמן העברה.
	Secrets Manager	מספק מאגר סודות לצינורות עיבוד נתונים שנשלטים על ידי IAM.
	הצפנה במנוחה	כברירת מחדל, Google Cloud מצפין נתונים באחסון.
	הצפנה במעבר	כברירת מחדל, Google Cloud מצפין נתונים במעבר.
בלש	Security Command Center	עוזר לכם לזהות טעויות בהגדרות ופעילות זדונית בארגון שלכם. Google Cloud
	ארכיטקטורה רציפה	בודק באופן רציף את Google Cloud הארגון שלכם בהתאם לסדרה של כללי מדיניות OPA שהגדרתם.
	שירות המלצות IAM	מנתח את הרשאות המשתמשים ומספק הצעות לצמצום ההרשאות כדי לאכוף את העיקרון של הרשאות מינימליות.
	תובנות לגבי חומת האש	מנתח כללים של חומת אש, מזהה כללים של חומת אש עם הרשאות רחבות מדי ומציע חומות אש מגבילות יותר כדי לשפר את מצב האבטחה הכולל.
	Cloud Logging	הוא מספק תובנות לגבי פעילות המערכת ועוזר לזהות חריגות ופעילות זדונית.
	Cloud Monitoring	עוקב אחרי אותות ואירועים מרכזיים שיכולים לעזור לזהות פעילות חשודה.
מניעתי	מדיניות הארגון	מאפשר לכם לשלוט בפעולות ולהגביל אותן בתוך הארגון שלכם ב- Google Cloud

Workflows

בקטעים הבאים מפורטים תהליך העבודה של יצרן הנתונים ותהליך העבודה של צרכן הנתונים, כדי להבטיח אמצעי בקרה מתאימים לגישה על סמך רגישות הנתונים ותפקידי המשתמשים.

תהליך העבודה של מפיק הנתונים

בתרשים הבא מתואר איך הנתונים מוגנים במהלך ההעברה שלהם ל-BigQuery.

תהליך העבודה של מפיק הנתונים

תהליך העבודה להעברת נתונים הוא כזה:

אפליקציה שמשולבת עם איחוד שירותי אימות הזהות של עומסי עבודה משתמשת ב-Cloud KMS כדי לפענח מפתח הצפנה עטוף.
האפליקציה משתמשת בספריית Tink כדי להסיר פרטי זיהוי מהנתונים או להצפין אותם באמצעות תבנית.
האפליקציה מעבירה נתונים לפרויקט ההטמעה ב- Google Cloud.
הנתונים מגיעים אל Cloud Storage,‏ BigQuery או Pub/Sub.
בפרויקט ההטמעה, הנתונים מפוענחים או שמזוהים מחדש באמצעות תבנית.
הנתונים המפוענחים מוצפנים או מוסתרים על סמך תבנית אחרת להסרת פרטים מזהים, ואז ממוקמים בפרויקט הלא סודי. התגים מוחלים על ידי מנוע התיוג לפי הצורך.
הנתונים מהפרויקט הלא סודי מועברים לפרויקט הסודי ומזוהים מחדש.

מותרת גישה לנתונים הבאים:

משתמשים שיש להם גישה לפרויקט הסודי יכולים לגשת לכל הנתונים הגולמיים בטקסט לא מוצפן.
משתמשים שיש להם גישה לפרויקט לא סודי יכולים לגשת לנתונים מוסווים, לנתונים שעברו טוקניזציה או לנתונים מוצפנים, על סמך התגים שמשויכים לנתונים וההרשאות שלהם.

תהליך העבודה של צרכן הנתונים

בשלבים הבאים מוסבר איך צרכן יכול לגשת לנתונים שמאוחסנים ב-BigQuery.

המשתמש מחפש נכסי נתונים באמצעות Data Catalog.
אחרי שהצרכן מוצא את הנכסים שהוא מחפש, הוא מבקש גישה לנכסי הנתונים.
בעל הנתונים מחליט אם להעניק גישה לנכסים.
אם הצרכן מקבל גישה, הוא יכול להשתמש במחברת ובקטלוג הפתרונות כדי ליצור סביבה שבה הוא יכול לנתח ולשנות את נכסי הנתונים.

מסכם הכול

מאגר GitHub מספק הוראות מפורטות לפריסת רשת הנתונים ב-Google Cloud אחרי פריסת הבסיס הארגוני. התהליך להטמעה של הארכיטקטורה כולל שינוי של מאגרי התשתית הקיימים והטמעה של רכיבים חדשים שספציפיים לרשת נתונים.

צריך לבצע את השלבים הבאים:

צריך לוודא שכל התנאים המוקדמים מתקיימים, כולל התנאים הבאים:
1. מתקינים את Google Cloud CLI,‏ Terraform,‏ Tink,‏ Java ו-Go.
2. פורסים את התוכנית של enterprise foundations‏ (v4.1).
3. צריך לתחזק את המאגרים המקומיים הבאים:
  - gcp-data-mesh-foundations
  - gcp-bootstrap
  - gcp-environments
  - gcp-networks
  - gcp-org
  - gcp-projects
משנים את תוכנית הבסיס הקיימת ואז פורסים את האפליקציות של רשת הנתונים. לגבי כל פריט, משלימים את הפעולות הבאות:
1. מאחזרים את הענף Plan במאגר היעד.
2. כדי להוסיף רכיבים של רשת נתונים, מעתיקים את הקבצים והספריות הרלוונטיים מ-gcp-data-mesh-foundations לספריית הבסיס המתאימה. להחליף קבצים כשנדרש.
3. מעדכנים את המשתנים, התפקידים וההגדרות של רשת הנתונים בקובצי Terraform (לדוגמה, *.tfvars ו-*.tf). מגדירים את הטוקנים של GitHub כמשתני סביבה.
4. מבצעים את הפעולות Terraform initialize,‏ plan ו-apply בכל מאגר.
5. שומרים את השינויים, מעלים את הקוד למאגר המרוחק, יוצרים בקשות משיכה וממזגים לסביבות הפיתוח, לסביבות שאינן ייצור ולסביבות הייצור.

פריסת פלטפורמה ארגונית לניהול נתונים ולניתוח נתונים קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

ארכיטקטורה

החלטות אדריכליות מרכזיות

זהות: מיפוי תפקידים לקבוצות

תשתית

משילות מידע (data governance)

מפיקי נתונים שמבוססים על דומיין

צרכני נתונים שמבוססים על דומיין

מבנה ארגוני

תיקייה בפלטפורמת נתונים

תיקיית המפיקים

תיקיית צרכן

תיקייה משותפת

ארכיטקטורת CDMC

הטמעה של CDMC

ניהול הרשאות גישה לנתונים

Networking

רישום ביומן

פייפליינים

פריסה אינטראקטיבית דרך Service Catalog

צינורות עיבוד נתונים של Artifact

אמצעי בקרה לאבטחה

Workflows

תהליך העבודה של מפיק הנתונים

תהליך העבודה של צרכן הנתונים

מסכם הכול

המאמרים הבאים

פריסת פלטפורמה ארגונית לניהול נתונים ולניתוח נתונים