מבוא למשילות מידע (data governance) ב-BigQuery
ל-BigQuery יש יכולות מובנות של ניהול נתונים, שמפשטות את האופן שבו אתם מגלים, מנהלים, עוקבים אחרי, שולטים בנכסי הנתונים וה-AI שלכם ומשתמשים בהם.
אדמינים, מנהלי מדיניות מידע ארגונית, מנהלי משילות מידע ואחראים על נתונים יכולים להשתמש ביכולות המשילות ב-BigQuery כדי לבצע את הפעולות הבאות:
- נתוני Discover.
- ארגון הנתונים.
- איסוף והעשרה של מטא-נתונים.
- ניהול איכות הנתונים.
- מוודאים שהנתונים נמצאים בשימוש עקבי ובהתאם למדיניות הארגון.
- שיתוף נתונים בהיקף נרחב ובצורה מאובטחת.
יכולות ניהול הגישה ב-BigQuery מבוססות על Dataplex Universal Catalog, מלאי מרכזי של כל נכסי הנתונים בארגון. ב-Dataplex Universal Catalog נשמרים מטא-נתונים עסקיים, טכניים ותפעוליים של כל הנתונים. הוא עוזר לכם לגלות קשרים וסמנטיקה במטא-נתונים באמצעות בינה מלאכותית ולמידת מכונה.
מאגר המטא-נתונים של BigLake מאפשר לכם להשתמש בכמה מנועי עיבוד נתונים כדי לשלוח שאילתה לעותק יחיד של נתונים עם סכימה יחידה, בלי לשכפל את הנתונים. מנועי עיבוד הנתונים שבהם אפשר להשתמש כוללים את BigQuery, Apache Spark, Apache Flink ו-Apache Hive. אפשר לאחסן את הנתונים במיקומים כמו טבלאות אחסון ב-BigQuery, טבלאות BigLake בפורמט Apache Iceberg ב-BigQuery או טבלאות חיצוניות של BigLake.
BigQuery תומך במחזור חיים מלא של נתונים, החל מגילוי הנתונים ועד לשימוש בהם. תכונות ניהול זמינות גם ב-Dataplex Universal Catalog.
גילוי נתונים
BigQuery מגלה נתונים בכל הארגון, Google Cloudבין אם הנתונים נמצאים ב-BigQuery, ב-Spanner, ב-Cloud SQL, ב-Pub/Sub או ב-Cloud Storage. המטא-נתונים מחולצים באופן אוטומטי ומאוחסנים ב-Dataplex Universal Catalog. לדוגמה, אתם יכולים לחלץ מטא-נתונים של נתונים מובְנים ולא מובְנים מ-Cloud Storage, וליצור באופן אוטומטי טבלאות BigLake מוכנות לשליפת נתונים בהיקף גדול. כך תוכלו לבצע ניתוח נתונים באמצעות מנוע קוד פתוח בלי לשכפל נתונים.
אפשר גם לחלץ מטא-נתונים ממקורות נתונים של צד שלישי ולרשום אותם בקטלוג באמצעות מחברים בהתאמה אישית.
BigQuery מציע את היכולות הבאות לגילוי נתונים:
- חיפוש חיפוש נתונים ומשאבי AI בפרויקטים ובארגון. ב-BigQuery במסוף Google Cloud , אפשר להשתמש בחיפוש סמנטי (גרסת Preview) כדי לחפש משאבים בשפה יומיומית. אפשרות אחרת היא למצוא משאבים באמצעות חיפוש מילות מפתח ב-Dataplex Universal Catalog.
- גילוי אוטומטי של נתונים ב-Cloud Storage. סריקת נתונים בקטגוריות של Cloud Storage כדי לחלץ מטא-נתונים ואז ליצור קטלוג שלהם. גילוי אוטומטי יוצר טבלאות לנתונים מובנים ולא מובנים.
- ייבוא מטא-נתונים. ייבוא מטא-נתונים בקנה מידה גדול ממערכות של צד שלישי אל Dataplex Universal Catalog. אתם יכולים ליצור מחברים בהתאמה אישית כדי לחלץ נתונים ממקורות הנתונים שלכם, ואז להפעיל צינורות להעברת נתונים מנוהלים שמתזמנים את תהליך העבודה של ייבוא המטא-נתונים.
- ייצוא מטא-נתונים. ייצוא מטא-נתונים בהיקף גדול מ-Dataplex Universal Catalog. אפשר לנתח את המטא-נתונים המיוצאים באמצעות BigQuery, או לשלב את המטא-נתונים באפליקציות מותאמות אישית או בתהליכי עבודה של עיבוד תוכנות.
אצירה ומדיניות מידע ארגונית
כדי לשפר את האיתור והשימושיות של הנתונים, מנהלי נתונים ואדמינים יכולים להשתמש ב-BigQuery כדי לבדוק, לעדכן ולנתח מטא-נתונים. היכולות של BigQuery לניהול נתונים עוזרות לכם לוודא שהנתונים מדויקים, עקביים ועומדים בדרישות המדיניות של הארגון.
BigQuery מציע את היכולות הבאות לניהול נתונים:
- מילון המונחים הארגוני. כדי לשפר את ההקשר, שיתוף הפעולה והחיפוש, אפשר להגדיר את המינוח של הארגון במילון מונחים. מזהים את האחראים על הנתונים עבור התנאים ומצרפים את התנאים לשדות של נכסי הנתונים.
- תובנות לגבי נתונים. Gemini משתמש במטא-נתונים כדי ליצור שאלות בשפה טבעית לגבי הטבלה שלכם ושאילתות SQL כדי לענות עליהן. התובנות האלה עוזרות לכם לזהות דפוסים, להעריך את איכות הנתונים ולבצע ניתוח סטטיסטי.
- פרופיל נתונים. לזהות מאפיינים סטטיסטיים נפוצים של העמודות בטבלאות BigQuery כדי להבין ולנתח את הנתונים בצורה יעילה יותר.
- איכות הנתונים. הגדרת בדיקות איכות נתונים והרצה שלהן בטבלאות ב-BigQuery וב-Cloud Storage, והחלה של אפשרויות לניהול השימוש בנתונים קבועות ומתמשכות בסביבות BigQuery.
- שושלת נתונים. לעקוב אחרי התנועה של הנתונים במערכות: מאיפה הם מגיעים, לאן הם מועברים ואילו טרנספורמציות מוחלות עליהם. BigQuery תומך בתיעוד מקורות נתונים ברמת הטבלה וברמת העמודה.
השלבים הבאים בנושא אוצרות ומדיניות מידע ארגונית
בטבלה הבאה מפורטים השלבים הבאים שאפשר לבצע כדי לקבל מידע נוסף על התכונות של אוסף ומדיניות מידע ארגונית:
| ניסיון | תוכנית לימודים |
|---|---|
| משתמשים חדשים בענן |
|
| משתמשים מנוסים בענן |
|
אבטחה ובקרת גישה
ניהול הרשאות גישה לנתונים הוא תהליך של הגדרה, אכיפה ומעקב אחרי הכללים והמדיניות שקובעים למי יש גישה לנתונים. ניהול הגישה מוודא שרק מי שמורשה לגשת לנתונים יכול לעשות זאת.
BigQuery מציע את היכולות הבאות בתחום האבטחה ובקרת הגישה:
- ניהול זהויות והרשאות גישה (IAM). IAM מאפשר לכם לקבוע למי תהיה גישה למשאבי BigQuery, כמו פרויקטים, מערכי נתונים, טבלאות ותצוגות. אפשר להעניק תפקידי IAM למשתמשים, לקבוצות ולחשבונות שירות. התפקידים האלה מגדירים מה הם יכולים לעשות עם המשאבים שלכם.
- אמצעי בקרה לגישה ברמת העמודה ואמצעי בקרה לגישה ברמת השורה. אמצעי בקרה לגישה ברמת העמודה וברמת השורה מאפשרים להגביל את הגישה לעמודות ולשורות ספציפיות בטבלה, על סמך מאפייני המשתמש או ערכי הנתונים. אמצעי הבקרה הזה מאפשר לכם להגדיר גישה ברמת גרנולריות גבוהה כדי להגן על מידע אישי רגיש מפני גישה לא מורשית.
- ניהול העברות נתונים. בעזרת VPC Service Controls אפשר ליצור גבולות גזרה מסביב למשאבים ב- Google Cloudולשלוט בגישה למשאבים האלה על סמך המדיניות של הארגון.
- יומני ביקורת. יומני הביקורת מספקים תיעוד מפורט של פעילות המשתמשים ואירועים במערכת בארגון שלכם. היומנים האלה עוזרים לכם לאכוף את כללי המדיניות של משילות מידע ולזהות סיכוני אבטחה פוטנציאליים.
- טשטוש נתונים. הסתרת נתונים מאפשרת לכם להסתיר נתונים רגישים בטבלה, ובמקביל לאפשר למשתמשים מורשים לגשת לנתונים שמסביב. הסתרת נתונים יכולה גם להסתיר נתונים שתואמים לדפוסי נתונים רגישים, כדי להגן מפני חשיפת נתונים בטעות.
- הצפנה. BigQuery מצפין אוטומטית את כל הנתונים במנוחה ובמעבר, ומאפשר לכם להתאים אישית את הגדרות ההצפנה כדי לעמוד בדרישות הספציפיות שלכם.
השלבים הבאים בנושא אבטחה ובקרת גישה
בטבלה הבאה מפורטים השלבים הבאים שאפשר לבצע כדי לקבל מידע נוסף על התכונות של בקרת הגישה:
| ניסיון | תוכנית לימודים |
|---|---|
| משתמשים חדשים בענן |
|
| משתמשים מנוסים בענן |
|
נתונים ותובנות משותפים
BigQuery מאפשר לכם לשתף נתונים ותובנות בקנה מידה נרחב בתוך הארגון ומחוצה לו. יש לו מסגרת אבטחה ופרטיות חזקה באמצעות פלטפורמה מובנית להחלפת נתונים. באמצעות שיתוף ב-BigQuery, אתם יכולים לגלות, לגשת ולהשתמש בספריית נתונים שאוסף מגוון רחב של ספקי נתונים.
אלה היכולות של BigQuery לשיתוף:
- שיתוף של יותר מנתונים. אפשר לשתף מגוון רחב של נתונים ונכסי AI, כמו מערכי נתונים, טבלאות, תצוגות, זרמים בזמן אמת עם נושאי Pub/Sub, פרוצדורות מאוחסנות של SQL ומודלים של BigQuery ML.
- ניגשים למערכי הנתונים של Google. אתם יכולים להרחיב את הפרויקטים שקשורים לניתוח נתונים וללמידת מכונה באמצעות מערכי הנתונים של Google מ-Google Trends, ממודלים של DeepMind WeatherNext, מ-Google Maps Platform, מ-Google Earth Engine ועוד.
- שילוב עם עקרונות של משילות מידע. בעלי הנתונים שומרים על השליטה בנתונים שלהם ויכולים להגדיר כללים או מדיניות כדי להגביל את הגישה והשימוש.
- שיתוף נתונים בזמן אמת ללא העתקה. הנתונים משותפים במקום בלי שנדרשת אינטגרציה, העברת נתונים או שכפול נתונים, וכך מובטח שהניתוח מבוסס על המידע העדכני ביותר. מערכי הנתונים המקושרים שנוצרים הם מצביע פעיל לנכס המשותף.
- שיפור אמצעי האבטחה. אתם יכולים להשתמש באמצעי בקרת גישה כדי לצמצם את הגישה שניתנת מעבר לנדרש, כולל תמיכה מובנית ב-VPC Service Controls.
- הגדלת החשיפה באמצעות מדדי השימוש של הספק. מפרסמי נתונים יכולים לראות ולעקוב אחרי השימוש בנכסים משותפים, כמו מספר המשימות שהופעלו, סך הבייטים שנסרקו והמנויים של כל ארגון.
- שיתוף פעולה בנוגע למידע אישי רגיש באמצעות מרכזי נתונים לניקוי נתונים. חדרי נתונים נקיים מספקים סביבה מאובטחת שבה כמה צדדים יכולים לשתף את נכסי הנתונים שלהם, לשלב אותם ולנתח אותם בלי להעביר את הנתונים הבסיסיים או לחשוף אותם.
- מבוסס על BigQuery. אתם יכולים להסתמך על יכולות העיבוד המסיביות והגמישות של BigQuery, וכך לשתף פעולה בקנה מידה גדול.
השלבים הבאים לשיתוף
בטבלה הבאה מפורטים השלבים הבאים שאפשר לבצע כדי לקבל מידע נוסף על תכונות השיתוף:
| ניסיון | תוכנית לימודים |
|---|---|
| משתמשים חדשים בענן |
|
| משתמשים מנוסים בענן |
|
המאמרים הבאים
- מידע על אימות ב-Google
- מידע נוסף על מחיקת נתונים ב- Google Cloud
- מידע נוסף על שיטות מומלצות לשימוש ב-IAM
- מידע נוסף על היררכיית המשאבים ב- Google Cloud
- מידע נוסף על IAM ב- Google Cloud