L-diversity הוא מאפיין של מערך נתונים והרחבה של k-anonymity שמודד את המגוון של ערכים רגישים בכל עמודה שבה הם מופיעים. קבוצת נתונים היא בעלת מגוון של l אם לכל קבוצת שורות עם מזהים פסאודונימיים זהים יש לפחות l ערכים שונים לכל מאפיין רגיש.
אפשר לחשב את ערך המגוון l על סמך עמודה אחת או יותר, או שדות, של מערך נתונים. במאמר הזה נדגים איך לחשב ערכי l-diversity עבור מערך נתונים באמצעות Sensitive Data Protection. לפני שממשיכים, מומלץ לעיין בנושא בנושא ניתוח סיכונים כדי לקבל מידע נוסף על l-מגוון או על ניתוח סיכונים באופן כללי.
לפני שמתחילים
לפני שממשיכים, חשוב לוודא שביצעתם את הפעולות הבאות:
- נכנסים לחשבון Google.
- בדף לבחירת הפרויקט במסוף Google Cloud , בוחרים פרויקט ב- Google Cloud או יוצרים אותו. כניסה לדף לבחירת הפרויקט
- מוודאים שהחיוב מופעל בפרויקט Google Cloud . איך מוודאים שהחיוב מופעל בפרויקט?
- מפעילים את התכונה Sensitive Data Protection. הפעלת Sensitive Data Protection
- בוחרים מערך נתונים ב-BigQuery לניתוח. Sensitive Data Protection מחשב את מדד l-diversity על ידי סריקה של טבלה ב-BigQuery.
- קובעים מזהה של שדה רגיש (אם רלוונטי) ולפחות מזהה למחצה אחד במערך הנתונים. מידע נוסף זמין במאמר מונחים וטכניקות לניתוח סיכונים.
חישוב של l-diversity
הכלי Sensitive Data Protection מבצע ניתוח סיכונים בכל פעם שמריצים משימת ניתוח סיכונים. קודם צריך ליצור את העבודה באמצעות מסוףGoogle Cloud , שליחת בקשת DLP API או שימוש בספריית לקוח של Sensitive Data Protection.
המסוף
נכנסים לדף Create risk analysis במסוף Google Cloud .
בקטע Choose input data (בחירת נתוני קלט), מציינים את הטבלה ב-BigQuery שרוצים לסרוק. לשם כך, מזינים את מזהה הפרויקט שמכיל את הטבלה, את מזהה מערך הנתונים של הטבלה ואת שם הטבלה.
בקטע מדד הפרטיות לחישוב, בוחרים באפשרות l-diversity.
בקטע מזהה משימה, אפשר לתת לעבודה מזהה מותאם אישית ולבחור מיקום משאב שבו Sensitive Data Protection יעבד את הנתונים. בסיום, לוחצים על המשך.
בקטע הגדרת שדות, מציינים שדות רגישים ומזהים למחצה עבור משימת הסיכון של l-diversity. Sensitive Data Protection ניגש למטא-נתונים של טבלה ב-BigQuery שציינתם בשלב הקודם ומנסה לאכלס את רשימת השדות.
- מסמנים את התיבה המתאימה כדי לציין ששדה מסוים הוא שדה רגיש (S) או מזהה למחצה (QI). צריך לבחור שדה רגיש אחד לפחות ומזהה למחצה אחד לפחות.
- אם Sensitive Data Protection לא מצליח לאכלס את השדות, לוחצים על הזנת שם השדה כדי להזין באופן ידני שדה אחד או יותר ולהגדיר כל אחד מהם כשדה רגיש או כמזהה למחצה. בסיום, לוחצים על המשך.
בקטע הוספת פעולות, אפשר להוסיף פעולות אופציונליות שיבוצעו כשהעבודה לזיהוי סיכונים תסתיים. האפשרויות הזמינות הן:
- Save to BigQuery (שמירה ב-BigQuery): שומר את תוצאות הסריקה של ניתוח הסיכונים בטבלה ב-BigQuery.
פרסום ב-Pub/Sub: פרסום התראה בנושא Pub/Sub.
שליחת הודעה באימייל: יישלח אליכם אימייל עם התוצאות. כשמסיימים, לוחצים על יצירה.
ניתוח הסיכון של l-diversity מתחיל מיד.
C#
מידע על התקנת ספריית הלקוח של Sensitive Data Protection והשימוש בה מופיע במאמר ספריות הלקוח של Sensitive Data Protection.
כדי לבצע אימות ב-Sensitive Data Protection, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Go
מידע על התקנת ספריית הלקוח של Sensitive Data Protection והשימוש בה מופיע במאמר ספריות הלקוח של Sensitive Data Protection.
כדי לבצע אימות ב-Sensitive Data Protection, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
מידע על התקנת ספריית הלקוח של Sensitive Data Protection והשימוש בה מופיע במאמר ספריות הלקוח של Sensitive Data Protection.
כדי לבצע אימות ב-Sensitive Data Protection, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
מידע על התקנת ספריית הלקוח של Sensitive Data Protection והשימוש בה מופיע במאמר ספריות הלקוח של Sensitive Data Protection.
כדי לבצע אימות ב-Sensitive Data Protection, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
PHP
מידע על התקנת ספריית הלקוח של Sensitive Data Protection והשימוש בה מופיע במאמר ספריות הלקוח של Sensitive Data Protection.
כדי לבצע אימות ב-Sensitive Data Protection, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
מידע על התקנת ספריית הלקוח של Sensitive Data Protection והשימוש בה מופיע במאמר ספריות הלקוח של Sensitive Data Protection.
כדי לבצע אימות ב-Sensitive Data Protection, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
כדי להריץ משימה חדשה של ניתוח סיכונים לחישוב של l-diversity, שולחים בקשה למשאב projects.dlpJobs, כאשר PROJECT_ID מציין את מזהה הפרויקט:
https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs
הבקשה מכילה אובייקט RiskAnalysisJobConfig, שכולל את המאפיינים הבאים:
אובייקט
PrivacyMetric. כאן מציינים שרוצים לחשב את l-diversity על ידי הוספת אובייקטLDiversityConfig.אובייקט
BigQueryTableכדי לציין את הטבלה ב-BigQuery שרוצים לסרוק, צריך לכלול את כל הפרטים הבאים:-
projectId: מזהה הפרויקט שמכיל את הטבלה. -
datasetId: מזהה מערך הנתונים של הטבלה. -
tableId: שם הטבלה.
-
קבוצה של אובייקטים מסוג
Actionאחד או יותר, שמייצגים פעולות להפעלה, בסדר שצוין, בסיום העבודה. כל אובייקטActionיכול להכיל אחת מהפעולות הבאות:SaveFindingsobject: שומר את התוצאות של סריקת ניתוח הסיכונים בטבלה ב-BigQuery.
PublishToPubSubobject: פרסום התראה בנושא Pub/Sub.JobNotificationEmailsobject: נשלח אליכם אימייל עם התוצאות.
באובייקט
הערכים האלה של הצעות המחיר משמשים ליצירת ההיסטוגרמה וטבלאות הפלט.LDiversityConfigמציינים את הפרטים הבאים:
ברגע ששולחים בקשה ל-DLP API, מתחילה משימת ניתוח הסיכון.
הצגת רשימה של משימות ניתוח סיכונים שהושלמו
אפשר לראות רשימה של משימות ניתוח הסיכונים שהופעלו בפרויקט הנוכחי.
המסוף
כדי להציג רשימה של משימות ניתוח סיכונים שפועלות ושל משימות שהופעלו בעבר במסוףGoogle Cloud :
במסוף Google Cloud , פותחים את Sensitive Data Protection.
לוחצים על הכרטיסייה משימות וטריגרים של משימות בחלק העליון של הדף.
לוחצים על הכרטיסייה Risk jobs (משימות בסיכון).
מופיע פרסום המשרה עם סיכון.
פרוטוקול
כדי לראות את רשימת המשימות של ניתוח הסיכונים שפועלות כרגע ואלה שפעלו בעבר, שולחים בקשת GET למשאב projects.dlpJobs. הוספת מסנן של סוג העבודה (?type=RISK_ANALYSIS_JOB) מצמצמת את התגובה רק למשרות של ניתוח סיכונים.
https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs?type=RISK_ANALYSIS_JOB
התגובה שתקבלו מכילה ייצוג JSON של כל משימות ניתוח הסיכונים הנוכחיות והקודמות.
הצגת תוצאות של משרות עם מגוון l
Sensitive Data Protection במסוף Google Cloud כולל תרשימים מובנים להמחשה של משימות l-diversity שהושלמו. אחרי שמבצעים את ההוראות שבקטע הקודם, ברשימת המשימות של ניתוח הסיכונים, בוחרים את המשימה שרוצים לראות את התוצאות שלה. אם ההרצה של העבודה הסתיימה בהצלחה, החלק העליון של הדף פרטי ניתוח הסיכונים ייראה כך:

בחלק העליון של הדף מופיע מידע על משימת הסיכון של l-diversity, כולל מזהה המשימה ומיקום המשאב בקטע Container.
כדי לראות את התוצאות של חישוב l-diversity, לוחצים על הכרטיסייה L-diversity. כדי לראות את ההגדרה של ניתוח הסיכונים, לוחצים על הכרטיסייה Configuration.
בכרטיסייה L-diversity מופיעים קודם הערך הרגיש והמזהים למחצה שמשמשים לחישוב l-diversity.
תרשים סיכון
בתרשים Re-identification risk, בציר y מוצג אחוז אובדן הנתונים הפוטנציאלי של שורות ייחודיות ושל שילובים ייחודיים של מזהים למחצה, כדי להשיג בציר x ערך של l-diversity. הצבע של התרשים מציין גם את הסיכון הפוטנציאלי. גוונים כהים יותר של כחול מציינים סיכון גבוה יותר, וגוונים בהירים יותר מציינים סיכון נמוך יותר.
ערכים גבוהים יותר של l-diversity מצביעים על פחות מגוון של ערכים, מה שיכול להקשות על זיהוי מחדש של מערך נתונים ולהפוך אותו למאובטח יותר. עם זאת, כדי להשיג ערכים גבוהים יותר של l-diversity, צריך להסיר אחוזים גבוהים יותר מסך השורות ושילובים ייחודיים רבים יותר של מזהים למחצה, מה שעלול להקטין את התועלת של הנתונים. כדי לראות ערך ספציפי של אחוז ההפסד הפוטנציאלי עבור ערך מסוים של l-diversity, מעבירים את הסמן מעל התרשים. כפי שמוצג בצילום המסך, מופיע הסבר קצר בתרשים.
כדי לראות פרטים נוספים על ערך ספציפי של l-diversity, לוחצים על נקודה על הגרף המתאימה. הסבר מפורט מופיע מתחת לתרשים, וטבלת נתונים לדוגמה מופיעה בהמשך הדף.
טבלת נתוני סיכון לדוגמה
המרכיב השני בדף התוצאות של משימת הסיכון הוא טבלת נתוני הדגימה. היא מציגה שילובים של מזהים למחצה עבור ערך נתון של l-diversity.

בעמודה הראשונה בטבלה מפורטים ערכי ה-k-אנונימיות. לוחצים על ערך של l-diversity כדי לראות נתוני מדגם תואמים שצריך להסיר כדי להשיג את הערך הזה.
בעמודה השנייה מוצג אובדן הנתונים הפוטנציאלי של שורות ייחודיות ושילובים של מזהים למחצה, כדי להשיג את ערך המגוון l שנבחר, וגם מספר הקבוצות עם לפחות l מאפיינים רגישים ומספר הרשומות הכולל.
בעמודה האחרונה מוצגת דוגמה של קבוצות שמשתפות שילוב של מזהה למחצה, לצד מספר הרשומות שקיימות לשילוב הזה.
אחזור פרטי משימה באמצעות REST
כדי לאחזר את התוצאות של עבודת הניתוח של סיכון המגוון l באמצעות REST API, שולחים את בקשת ה-GET הבאה למשאב projects.dlpJobs. מחליפים את PROJECT_ID במזהה הפרויקט ואת JOB_ID במזהה של המשימה שרוצים לקבל את התוצאות שלה.
מזהה המשרה הוחזר כשמתחילים את המשרה, ואפשר גם לאחזר אותו על ידי רשימת כל המשרות.
GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID
הבקשה מחזירה אובייקט JSON שמכיל מופע של העבודה. תוצאות הניתוח נמצאות בתוך המפתח "riskDetails", באובייקט AnalyzeDataSourceRiskDetails. מידע נוסף מופיע בהפניית ה-API של המשאב DlpJob.
המאמרים הבאים
- איך מחשבים את ערך האנונימיות מסוג k של מערך נתונים
- איך מחשבים את הערך של מפת k עבור מערך נתונים
- איך מחשבים את ערך δ-הנוכחות של מערך נתונים