נוכחות דלתא (δ-נוכחות) היא מדד שמכמת את ההסתברות שאדם מסוים שייך למערך נתונים שנבדק. בדומה ל-k-map, אפשר להעריך את ערכי δ-presence באמצעות Sensitive Data Protection, שמשתמש במודל סטטיסטי כדי להעריך את מערך הנתונים של המתקפה.
δ-presence שונה משיטות אחרות לניתוח סיכונים, שבהן מערך הנתונים של המתקפה ידוע באופן מפורש. בהתאם לסוג הנתונים, Sensitive Data Protection משתמש במערכי נתונים שזמינים לציבור (לדוגמה, מנתוני מפקד האוכלוסין בארה"ב) או במודל סטטיסטי בהתאמה אישית (לדוגמה, טבלה אחת או יותר ב-BigQuery שאתם מציינים), או שהוא מבצע אקסטרפולציה מהפיזור של הערכים במערך הנתונים של הקלט.
במאמר הזה נסביר איך לחשב ערכי נוכחות של δ עבור מערך נתונים באמצעות Sensitive Data Protection. לפני שממשיכים, מומלץ לעיין במאמר בנושא ניתוח סיכונים כדי לקבל מידע נוסף על δ-נוכחות או על ניתוח סיכונים באופן כללי.
לפני שמתחילים
לפני שממשיכים, חשוב לוודא שביצעתם את הפעולות הבאות:
- נכנסים לחשבון Google.
- בדף לבחירת הפרויקט במסוף Google Cloud , בוחרים פרויקט ב- Google Cloud או יוצרים אותו. כניסה לדף לבחירת הפרויקט
- מוודאים שהחיוב מופעל בפרויקט Google Cloud . איך מוודאים שהחיוב מופעל בפרויקט?
- מפעילים את התכונה Sensitive Data Protection. הפעלת Sensitive Data Protection
- בוחרים מערך נתונים ב-BigQuery לניתוח. Sensitive Data Protection מעריך את מדד הנוכחות δ על ידי סריקה של טבלת BigQuery.
- קובעים את סוגי מערכי הנתונים שרוצים להשתמש בהם כדי ליצור מודל של מערך הנתונים של המתקפה. מידע נוסף זמין בדף העיון של אובייקט
DeltaPresenceEstimationConfigוגם במאמר מונחים וטכניקות לניתוח סיכונים.
חישוב מדדי הנוכחות δ
כדי לחשב אומדן של נוכחות δ באמצעות Sensitive Data Protection, שולחים בקשה לכתובת ה-URL הבאה, כאשר PROJECT_ID מציין את מזהה הפרויקט:
https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs
הבקשה מכילה אובייקט RiskAnalysisJobConfig, שכולל את המאפיינים הבאים:
אובייקט
PrivacyMetric. כאן מציינים שרוצים לחשב את נוכחות δ על ידי ציון אובייקטDeltaPresenceEstimationConfigשמכיל את הפרטים הבאים:
quasiIds[]: שדה חובה. שדות (אובייקטים שלQuasiId) שנחשבים למזהים למחצה, שצריך לסרוק ולהשתמש בהם כדי לחשב את δ-נוכחות. שתי עמודות לא יכולות לקבל את אותו תג. אלה יכולים להיות כל אחד מהערכים הבאים:- infoType: האפשרות הזו גורמת ל-Sensitive Data Protection להשתמש במערך הנתונים הציבורי הרלוונטי כמודל סטטיסטי של אוכלוסייה, כולל מיקודים בארה"ב, קודי אזורים, גילאים ומגדרים.
- סוג מידע מותאם אישית: תג מותאם אישית שבו מציינים טבלה משנית (אובייקט
AuxiliaryTable) שמכילה מידע סטטיסטי על הערכים האפשריים של העמודה הזו. - התג
inferred: אם לא מצוין תג סמנטי, מצייניםinferred. הכלי Sensitive Data Protection מסיק את המודל הסטטיסטי מההתפלגות של הערכים בנתוני הקלט.
regionCode: קוד אזור בן 2 תווים לפי תקן ISO 3166-1 alpha-2 לשימוש ב-Sensitive Data Protection במודלים סטטיסטיים. הערך הזה נדרש אם לא מסומנת עמודה עם סוג מידע ספציפי לאזור (לדוגמה, מיקוד בארה"ב) או קוד אזור.
auxiliaryTables[]: טבלאות עזר (אובייקטים שלStatisticalTable) לשימוש בניתוח. כל תג מותאם אישית שמשמש לתיוג עמודה של מזהה למחצה (מתוךquasiIds[]) חייב להופיע בדיוק בעמודה אחת של טבלת עזר אחת.
אובייקט
BigQueryTableכדי לציין את הטבלה ב-BigQuery שרוצים לסרוק, צריך לכלול את כל הפרטים הבאים:-
projectId: מזהה הפרויקט שמכיל את הטבלה. -
datasetId: מזהה מערך הנתונים של הטבלה. -
tableId: שם הטבלה.
-
קבוצה של אובייקטים מסוג
Actionאחד או יותר, שמייצגים פעולות להפעלה, בסדר שצוין, בסיום העבודה. כל אובייקטActionיכול להכיל אחת מהפעולות הבאות:SaveFindingsobject: שומר את התוצאות של סריקת ניתוח הסיכונים בטבלה ב-BigQuery.-
PublishToPubSubobject: פרסום התראה בנושא Pub/Sub.
-
PublishSummaryToCsccobject: שומר סיכום של התוצאות ב-Security Command Center. -
PublishFindingsToCloudDataCatalogobject: שומר את התוצאות ב-Data Catalog. JobNotificationEmailsobject: נשלח אליכם אימייל עם התוצאות.-
PublishToStackdriverobject: שומר את התוצאות ב-Google Cloud Observability.
הצגת תוצאות של משרות עם נוכחות δ
כדי לאחזר את התוצאות של ניתוח הסיכון של נוכחות δ באמצעות REST API, שולחים את בקשת GET הבאה למשאב projects.dlpJobs. מחליפים את PROJECT_ID במזהה הפרויקט ואת JOB_ID במזהה של המשימה שרוצים לקבל את התוצאות שלה.
מזהה המשרה הוחזר כשמתחילים את המשרה, ואפשר גם לאחזר אותו על ידי רשימת כל המשרות.
GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID
הבקשה מחזירה אובייקט JSON שמכיל מופע של העבודה. תוצאות הניתוח נמצאות בתוך המפתח "riskDetails", באובייקט AnalyzeDataSourceRiskDetails. מידע נוסף מופיע בהפניית ה-API של המשאב DlpJob.
המאמרים הבאים
- איך מחשבים את ערך האנונימיות מסוג k של מערך נתונים
- ll-diversity של מערך נתונים
- איך מחשבים את הערך של מפת k עבור מערך נתונים