מבוא למשילות מידע (data governance) ב-BigQuery
ל-BigQuery יש יכולות מובנות של ניהול נתונים, שמפשטות את האופן שבו אתם מגלים, מנהלים, עוקבים אחרי, שולטים בנכסי הנתונים וה-AI שלכם ומשתמשים בהם.
אדמינים, מנהלי מדיניות מידע ארגונית, מנהלי משילות מידע ומנהלי אחסון נתונים יכולים להשתמש ביכולות המשילות ב-BigQuery כדי לבצע את הפעולות הבאות:
- נתוני Discover.
- ארגון הנתונים.
- איסוף והעשרה של מטא-נתונים.
- ניהול איכות הנתונים.
- מוודאים שהשימוש בנתונים עקבי ובהתאם למדיניות הארגון.
- שיתוף נתונים בהיקף גדול ובאופן מאובטח.
יכולות ניהול הגישה ב-BigQuery מבוססות על Knowledge Catalog, מלאי מרכזי של כל נכסי הנתונים בארגון. ב-Knowledge Catalog נשמרים מטא-נתונים עסקיים, טכניים ותפעוליים של כל הנתונים. הוא עוזר לכם לגלות קשרים וסמנטיקה במטא-נתונים באמצעות בינה מלאכותית ולמידת מכונה.
קטלוג זמן הריצה של Lakehouse מאפשר לכם להשתמש בכמה מנועי עיבוד נתונים כדי לשלוח שאילתה לעותק יחיד של נתונים עם סכימה יחידה, בלי לשכפל את הנתונים. מנועי עיבוד הנתונים שבהם אפשר להשתמש כוללים את BigQuery, Apache Spark, Apache Flink ו-Apache Hive. הנתונים יכולים להיות מאוחסנים במיקומים כמו טבלאות אחסון ב-BigQuery, טבלאות מנוהלות של Apache Iceberg או טבלאות חיצוניות של BigLake.
BigQuery תומך במחזור חיים מלא של נתונים, החל מגילוי הנתונים ועד לשימוש בהם. תכונות ניהול זמינות גם ב-Knowledge Catalog.
גילוי נתונים
BigQuery מגלה נתונים בכל הארגון, Google Cloudבין אם הנתונים נמצאים ב-BigQuery, ב-Spanner, ב-Cloud SQL, ב-Pub/Sub או ב-Cloud Storage. המטא-נתונים מחולצים באופן אוטומטי ומאוחסנים ב-Knowledge Catalog. לדוגמה, אתם יכולים לחלץ מטא-נתונים של נתונים מובְנים ולא מובְנים מ-Cloud Storage, וליצור באופן אוטומטי טבלאות BigLake שמוכנות להרצת שאילתות, בהיקף גדול. כך תוכלו לבצע ניתוח נתונים באמצעות מנוע קוד פתוח בלי ליצור כפילויות של נתונים.
אפשר גם לחלץ מטא-נתונים ממקורות נתונים של צד שלישי ולסווג אותם באמצעות מחברים בהתאמה אישית.
אלה היכולות של BigQuery לגילוי נתונים:
- חיפוש חיפוש נתונים ומשאבי AI בכל הפרויקטים ובארגון. ב-BigQuery במסוף Google Cloud , אפשר להשתמש בחיפוש סמנטי (בגרסת Preview) כדי לחפש משאבים בשפה יומיומית. אפשר גם למצוא משאבים באמצעות חיפוש מילות מפתח ב-Knowledge Catalog.
- גילוי אוטומטי של נתונים ב-Cloud Storage. סריקת נתונים בקטגוריות של Cloud Storage כדי לחלץ מטא-נתונים ואז ליצור קטלוג שלהם. גילוי אוטומטי יוצר טבלאות לנתונים מובנים ולא מובנים.
- ייבוא מטא-נתונים. ייבוא מטא-נתונים בקנה מידה גדול ממערכות של צד שלישי אל Knowledge Catalog. אתם יכולים ליצור מחברים בהתאמה אישית כדי לחלץ נתונים ממקורות הנתונים שלכם, ואז להפעיל צינורות קישוריות מנוהלים שמתזמנים את תהליך העבודה של ייבוא המטא-נתונים.
- ייצוא מטא-נתונים. ייצוא מטא-נתונים בקנה מידה גדול מ-Knowledge Catalog. אפשר לנתח את המטא-נתונים המיוצאים באמצעות BigQuery, או לשלב את המטא-נתונים באפליקציות מותאמות אישית או בתהליכי עבודה של עיבוד תוכנות.
ניהול נתונים
כדי לשפר את האיתור והשימושיות של הנתונים, מנהלי נתונים ואדמינים יכולים להשתמש ב-BigQuery כדי לבדוק, לעדכן ולנתח מטא-נתונים. היכולות של BigQuery לניהול נתונים עוזרות לכם לוודא שהנתונים מדויקים, עקביים ועומדים בדרישות המדיניות של הארגון.
BigQuery מציע את היכולות הבאות לניהול נתונים:
- מילון מונחים ארגוני. כדי לשפר את ההקשר, שיתוף הפעולה והחיפוש, כדאי להגדיר את המינוח של הארגון במילון מונחים. לזהות את האחראים על הנתונים עבור התנאים, ולצרף את התנאים לשדות של נכסי הנתונים.
- תובנות לגבי נתונים. Gemini משתמש במטא-נתונים כדי ליצור שאלות בשפה טבעית לגבי הטבלה ושאילתות SQL כדי לענות עליהן. התובנות האלה עוזרות לכם לזהות דפוסים, להעריך את איכות הנתונים ולבצע ניתוח סטטיסטי.
- פרופיל נתונים. לזהות מאפיינים סטטיסטיים נפוצים של העמודות בטבלאות BigQuery כדי להבין ולנתח את הנתונים בצורה יעילה יותר.
- איכות הנתונים. הגדרת בדיקות של איכות הנתונים והרצה שלהן בטבלאות ב-BigQuery וב-Cloud Storage, והחלת אמצעי בקרה שוטפים על הנתונים בסביבות BigQuery.
- שושלת נתונים. לעקוב אחרי התנועה של הנתונים במערכות: מאיפה הם מגיעים, לאן הם מועברים ואילו טרנספורמציות מוחלות עליהם. BigQuery תומך בתיעוד מקורות נתונים ברמת הטבלה וברמת העמודה.
השלבים הבאים בנושא אוצרות וניהול נתונים
בטבלה הבאה מפורטים השלבים הבאים שאפשר לבצע כדי לקבל מידע נוסף על התכונות של ניהול נתונים ואיסוף נתונים:
| ניסיון | תוכנית לימודים |
|---|---|
| משתמשים חדשים בענן |
|
| משתמשים מנוסים בענן |
|
אבטחה ובקרת גישה
ניהול הרשאות גישה לנתונים הוא תהליך של הגדרה, אכיפה ומעקב אחרי הכללים והמדיניות שקובעים למי יש גישה לנתונים. ניהול הגישה מוודא שרק מי שמורשה לגשת לנתונים יכול לעשות זאת.
BigQuery מציע את היכולות הבאות בתחום האבטחה ובקרת הגישה:
- ניהול זהויות והרשאות גישה (IAM). IAM מאפשר לכם לקבוע למי תהיה גישה למשאבי BigQuery, כמו פרויקטים, מערכי נתונים, טבלאות ותצוגות. אפשר להעניק תפקידי IAM למשתמשים, לקבוצות ולחשבונות שירות. התפקידים האלה מגדירים מה הם יכולים לעשות עם המשאבים שלכם.
- אמצעי בקרה לגישה ברמת העמודה ואמצעי בקרה לגישה ברמת השורה. אמצעי בקרה לגישה ברמת העמודה וברמת השורה מאפשרים להגביל את הגישה לעמודות ולשורות ספציפיות בטבלה, על סמך מאפייני משתמש או ערכי נתונים. אמצעי הבקרה הזה מאפשר לכם להגדיר גישה ברמת גרנולריות גבוהה כדי להגן על מידע אישי רגיש מפני גישה לא מורשית.
- ניהול העברת נתונים. בעזרת VPC Service Controls אפשר ליצור גבולות גזרה מסביב למשאבים ב- Google Cloudולשלוט בגישה למשאבים האלה על סמך המדיניות של הארגון.
- יומני ביקורת. יומני ביקורת מספקים תיעוד מפורט של פעילות המשתמשים ואירועים במערכת בארגון שלכם. היומנים האלה עוזרים לכם לאכוף את כללי המדיניות של משילות מידע ולזהות סיכוני אבטחה פוטנציאליים.
- הסתרת נתונים. הסתרת נתונים מאפשרת לכם להסתיר נתונים רגישים בטבלה, ובמקביל לאפשר למשתמשים מורשים לגשת לנתונים שמסביב. הסתרת נתונים יכולה גם להסתיר נתונים שתואמים לדפוסי נתונים רגישים, כדי להגן מפני חשיפת נתונים מקרית.
- הצפנה. מערכת BigQuery מצפינה אוטומטית את כל הנתונים במנוחה ובמעבר, ומאפשרת לכם להתאים אישית את הגדרות ההצפנה כדי לעמוד בדרישות הספציפיות שלכם.
השלבים הבאים בנושא אבטחה ובקרת גישה
בטבלה הבאה מפורטים השלבים הבאים שאפשר לבצע כדי לקבל מידע נוסף על התכונות של בקרת הגישה:
| ניסיון | תוכנית לימודים |
|---|---|
| משתמשים חדשים בענן |
|
| משתמשים מנוסים בענן |
|
נתונים ותובנות משותפים
BigQuery מאפשר לכם לשתף נתונים ותובנות בקנה מידה נרחב בתוך הארגון ומחוצה לו. יש לו מסגרת אבטחה ופרטיות חזקה באמצעות פלטפורמה מובנית להחלפת נתונים. באמצעות שיתוף ב-BigQuery, תוכלו לגלות ספריית נתונים שאוצרת מבחר רחב של ספקי נתונים, לגשת אליה ולהשתמש בה.
אלה היכולות של BigQuery לשיתוף:
- שיתוף של יותר מנתונים. אפשר לשתף מגוון רחב של נתונים ונכסי AI, כמו מערכי נתונים, טבלאות, תצוגות, זרמים בזמן אמת עם נושאי Pub/Sub, פרוצדורות מאוחסנות של SQL ומודלים של BigQuery ML.
- ניגשים למערכי נתונים של Google. אתם יכולים להרחיב את הפרויקטים שקשורים לניתוח נתונים וללמידת מכונה באמצעות מערכי נתונים של Google מ-Google Trends, ממודלים של DeepMind WeatherNext, מ-Google Maps Platform, מ-Google Earth Engine ועוד.
- שילוב עם עקרונות של משילות מידע. בעלי הנתונים שומרים על השליטה בנתונים שלהם ויכולים להגדיר כללים או מדיניות כדי להגביל את הגישה והשימוש.
- שיתוף נתונים בזמן אמת ללא העתקה. הנתונים משותפים במקום בלי שנדרשת אינטגרציה, העברת נתונים או שכפול נתונים, וכך הניתוח מבוסס על המידע העדכני ביותר. מערכי הנתונים המקושרים שנוצרים הם מצביע פעיל לנכס המשותף.
- שיפור אמצעי האבטחה. אתם יכולים להשתמש באמצעי בקרת גישה כדי לצמצם את הגישה שניתנת מעבר לנדרש, כולל תמיכה מובנית ב-VPC Service Controls.
- הגדלת החשיפה באמצעות מדדי השימוש בספק. מפרסמי נתונים יכולים לראות ולעקוב אחרי השימוש בנכסים משותפים, כמו מספר המשימות שהופעלו, סך הבייטים שנסרקו והמנויים של כל ארגון.
- שיתוף פעולה בנוגע למידע אישי רגיש באמצעות חדרי נתונים נקיים. מרכזי נתונים מאובטחים מספקים סביבה עם אבטחה משופרת שבה כמה צדדים יכולים לשתף את נכסי הנתונים שלהם, לשלב אותם ולנתח אותם בלי להעביר את הנתונים הבסיסיים או לחשוף אותם.
- מבוסס על BigQuery. אתם יכולים להסתמך על יכולות העיבוד המסיביות והגמישות של BigQuery, וכך לשתף פעולה בקנה מידה גדול.
השלבים הבאים לשיתוף
בטבלה הבאה מפורטים השלבים הבאים שאפשר לבצע כדי לקבל מידע נוסף על תכונות השיתוף:
| ניסיון | תוכנית לימודים |
|---|---|
| משתמשים חדשים בענן | |
| משתמשים מנוסים בענן |
|
המאמרים הבאים
- מידע על אימות ב-Google
- מידע נוסף על מחיקת נתונים ב- Google Cloud
- מידע נוסף על שיטות מומלצות לשימוש ב-IAM
- מידע נוסף על היררכיית המשאבים ב- Google Cloud
- מידע על IAM ב- Google Cloud