חישוב של δ-נוכחות עבור מערך נתונים

נוכחות דלתא (δ-נוכחות) היא מדד שמכמת את ההסתברות שאדם מסוים שייך למערך נתונים שנבדק. בדומה ל-k-map, אפשר להעריך את ערכי δ-presence באמצעות Sensitive Data Protection, שמשתמש במודל סטטיסטי כדי להעריך את מערך הנתונים של המתקפה.

δ-presence שונה משיטות אחרות לניתוח סיכונים, שבהן מערך הנתונים של המתקפה ידוע באופן מפורש. בהתאם לסוג הנתונים, Sensitive Data Protection משתמש במערכי נתונים שזמינים לציבור (לדוגמה, מנתוני מפקד האוכלוסין בארה"ב) או במודל סטטיסטי בהתאמה אישית (לדוגמה, טבלה אחת או יותר ב-BigQuery שאתם מציינים), או שהוא מבצע אקסטרפולציה מהפיזור של הערכים במערך הנתונים של הקלט.

במאמר הזה נסביר איך לחשב ערכי נוכחות של δ עבור מערך נתונים באמצעות Sensitive Data Protection. לפני שממשיכים, מומלץ לעיין במאמר בנושא ניתוח סיכונים כדי לקבל מידע נוסף על δ-נוכחות או על ניתוח סיכונים באופן כללי.

לפני שמתחילים

לפני שממשיכים, חשוב לוודא שביצעתם את הפעולות הבאות:

  1. נכנסים לחשבון Google.
  2. בדף לבחירת הפרויקט במסוף Google Cloud , בוחרים פרויקט ב- Google Cloud או יוצרים אותו.
  3. כניסה לדף לבחירת הפרויקט
  4. מוודאים שהחיוב מופעל בפרויקט Google Cloud . איך מוודאים שהחיוב מופעל בפרויקט?
  5. מפעילים את התכונה Sensitive Data Protection.
  6. הפעלת Sensitive Data Protection

  7. בוחרים מערך נתונים ב-BigQuery לניתוח. Sensitive Data Protection מעריך את מדד הנוכחות δ על ידי סריקה של טבלת BigQuery.
  8. קובעים את סוגי מערכי הנתונים שרוצים להשתמש בהם כדי ליצור מודל של מערך הנתונים של המתקפה. מידע נוסף זמין בדף העיון של אובייקט DeltaPresenceEstimationConfig וגם במאמר מונחים וטכניקות לניתוח סיכונים.

חישוב מדדי הנוכחות δ

כדי לחשב אומדן של נוכחות δ באמצעות Sensitive Data Protection, שולחים בקשה לכתובת ה-URL הבאה, כאשר PROJECT_ID מציין את מזהה הפרויקט:

https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs

הבקשה מכילה אובייקט RiskAnalysisJobConfig, שכולל את המאפיינים הבאים:

  • אובייקט PrivacyMetric. כאן מציינים שרוצים לחשב את נוכחות δ על ידי ציון אובייקט DeltaPresenceEstimationConfig שמכיל את הפרטים הבאים:

    • quasiIds[]: שדה חובה. שדות (אובייקטים של QuasiId) שנחשבים למזהים למחצה, שצריך לסרוק ולהשתמש בהם כדי לחשב את δ-נוכחות. שתי עמודות לא יכולות לקבל את אותו תג. אלה יכולים להיות כל אחד מהערכים הבאים:

      • infoType: האפשרות הזו גורמת ל-Sensitive Data Protection להשתמש במערך הנתונים הציבורי הרלוונטי כמודל סטטיסטי של אוכלוסייה, כולל מיקודים בארה"ב, קודי אזורים, גילאים ומגדרים.
      • סוג מידע מותאם אישית: תג מותאם אישית שבו מציינים טבלה משנית (אובייקט AuxiliaryTable) שמכילה מידע סטטיסטי על הערכים האפשריים של העמודה הזו.
      • התג inferred: אם לא מצוין תג סמנטי, מציינים inferred. הכלי Sensitive Data Protection מסיק את המודל הסטטיסטי מההתפלגות של הערכים בנתוני הקלט.
    • regionCode: קוד אזור בן 2 תווים לפי תקן ISO 3166-1 alpha-2 לשימוש ב-Sensitive Data Protection במודלים סטטיסטיים. הערך הזה נדרש אם לא מסומנת עמודה עם סוג מידע ספציפי לאזור (לדוגמה, מיקוד בארה"ב) או קוד אזור.

    • auxiliaryTables[]: טבלאות עזר (אובייקטים של StatisticalTable) לשימוש בניתוח. כל תג מותאם אישית שמשמש לתיוג עמודה של מזהה למחצה (מתוך quasiIds[]) חייב להופיע בדיוק בעמודה אחת של טבלת עזר אחת.

  • אובייקט BigQueryTable כדי לציין את הטבלה ב-BigQuery שרוצים לסרוק, צריך לכלול את כל הפרטים הבאים:

    • projectId: מזהה הפרויקט שמכיל את הטבלה.
    • datasetId: מזהה מערך הנתונים של הטבלה.
    • tableId: שם הטבלה.
  • קבוצה של אובייקטים מסוג Action אחד או יותר, שמייצגים פעולות להפעלה, בסדר שצוין, בסיום העבודה. כל אובייקט Action יכול להכיל אחת מהפעולות הבאות:

הצגת תוצאות של משרות עם נוכחות δ

כדי לאחזר את התוצאות של ניתוח הסיכון של נוכחות δ באמצעות REST API, שולחים את בקשת GET הבאה למשאב projects.dlpJobs. מחליפים את PROJECT_ID במזהה הפרויקט ואת JOB_ID במזהה של המשימה שרוצים לקבל את התוצאות שלה. מזהה המשרה הוחזר כשמתחילים את המשרה, ואפשר גם לאחזר אותו על ידי רשימת כל המשרות.

GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID

הבקשה מחזירה אובייקט JSON שמכיל מופע של העבודה. תוצאות הניתוח נמצאות בתוך המפתח "riskDetails", באובייקט AnalyzeDataSourceRiskDetails. מידע נוסף מופיע בהפניית ה-API של המשאב DlpJob.

המאמרים הבאים