Sensitive Data Protection משתמש בסוגי מידע – או infoTypes – כדי להגדיר את מה שהוא סורק. סוג מידע (infoType) הוא סוג של מידע אישי רגיש, כמו שם, כתובת אימייל, מספר טלפון, מספר זיהוי, מספר כרטיס אשראי וכו'.
לכל infoType שמוגדר ב-Sensitive Data Protection יש גלאי תואם. התכונה Sensitive Data Protection משתמשת בגלאי Infotype בהגדרות של הסריקות שלה כדי לקבוע מה לבדוק ואיך לשנות את הממצאים. שמות של סוגי מידע משמשים גם כשמציגים או מדווחים על תוצאות סריקה.
במאמר הזה מוסבר בפירוט על infoTypes ועל גלאי infoType, ומופיעות בו הוראות לשימוש בגלאי infoType כשסורקים תוכן כדי למצוא נתונים רגישים באמצעות Sensitive Data Protection.
ציון של מזהי infoType
כשמגדירים את Sensitive Data Protection לסריקת התוכן, צריך לכלול את מזהי ה-infoType שבהם רוצים להשתמש בהגדרת הסריקה.
לדוגמה, קובץ ה-JSON הבא ממחיש בקשת סריקה פשוטה ל-DLP API. שימו לב שגלאי PHONE_NUMBER מצוין ב-inspectConfig, שמורה ל-Sensitive Data Protection לסרוק את המחרוזת הנתונה כדי למצוא מספר טלפון.
POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}
{
"item":{
"value":"My phone number is (415) 555-0890"
},
"inspectConfig":{
"includeQuote":true,
"minLikelihood":"POSSIBLE",
"infoTypes":{
"name":"PHONE_NUMBER"
}
}
}
הבקשה הקודמת מחזירה את התוצאה הבאה:
{
"result":{
"findings":[
{
"quote":"(415) 555-0890",
"infoType":{
"name":"PHONE_NUMBER"
},
"likelihood":"VERY_LIKELY",
"location":{
"byteRange":{
"start":"19",
"end":"33"
},
"codepointRange":{
"start":"19",
"end":"33"
}
},
"createTime":"2018-10-29T23:46:34.535Z"
}
]
}
}
תמיד צריך לציין infoTypes בהגדרות הסריקה. אם לא מציינים infoTypes, Sensitive Data Protection משתמש ברשימת infoTypes שמוגדרת כברירת מחדל. בהתאם לכמות התוכן שצריך לסרוק, סריקה של סוגי מידע שמוגדרים כברירת מחדל יכולה להיות יקרה או לגזול זמן רב מדי.
למידע נוסף על שימוש בגלאי infoType לסריקת התוכן, אפשר לעיין באחד מהמאמרים עם הוראות בנושא בדיקה, עריכה או הסרת פרטים מזהים.
סוגים של מזהי סוגי מידע
גלאי סוגי מידע (או infoType) הם המנגנונים ש-Sensitive Data Protection משתמש בהם כדי למצוא מידע אישי רגיש.
Sensitive Data Protection כולל כמה סוגים של גלאי infoType, וכולם מסוכמים כאן:
- גלאי infoType מובנים הם חלק מ-Sensitive Data Protection. הם כוללים מזהים לסוגי מידע אישי רגיש שספציפיים למדינה או לאזור, וגם לסוגי נתונים שרלוונטיים באופן גלובלי.
- מזהים מותאמים אישית של סוגי מידע הם מזהים שאתם יוצרים בעצמכם. יש שלושה סוגים של גלאי סוגי מידע בהתאמה אישית:
- מזהים רגילים של מילונים בהתאמה אישית הם רשימות פשוטות של מילים שבהן מתבצעת התאמה של Sensitive Data Protection. משתמשים בגלאים רגילים של מילון מותאם אישית כשיש רשימה של עד כמה עשרות אלפי מילים או ביטויים. מומלץ להשתמש במזהים רגילים של מילונים בהתאמה אישית אם לא צפויים שינויים משמעותיים ברשימת המילים.
- גלאים של מילונים מותאמים אישית מאוחסנים נוצרים על ידי Sensitive Data Protection באמצעות רשימות גדולות של מילים או ביטויים שמאוחסנים ב-Cloud Storage או ב-BigQuery. כדאי להשתמש בגלאים של מילון מותאם אישית מאוחסן אם יש לכם רשימה גדולה של מילים או ביטויים – עד עשרות מיליוני מילים או ביטויים.
- מזהים של ביטויים רגולריים (regex) מאפשרים ל-Sensitive Data Protection לזהות התאמות על סמך דפוס של ביטוי רגולרי.
כדי לשפר את תוצאות הסריקה, אפשר ליצור כללי בדיקה.
מזהים מובנים של infoType
מזהי infoType מובנים מוטמעים ב-Sensitive Data Protection, והם כוללים מזהים של סוגי מידע אישי רגיש שספציפיים למדינה או לאזור מסוימים, כמו Numéro d'Inscription au Répertoire (NIR) (FRANCE_NIR) בצרפת, מספר רישיון נהיגה בבריטניה (UK_DRIVERS_LICENSE_NUMBER) ומספר תעודת זהות בארה"ב (US_SOCIAL_SECURITY_NUMBER). הם כוללים גם סוגי נתונים שרלוונטיים באופן גלובלי, כמו שם של אדם (PERSON_NAME), מספרי טלפון (PHONE_NUMBER), כתובות אימייל (EMAIL_ADDRESS) ומספרי כרטיסי אשראי (CREDIT_CARD_NUMBER).כדי לזהות תוכן שתואם ל-infoType, Sensitive Data Protection משתמש בטכניקות שונות, כולל התאמת תבניות, סיכומי ביקורת (checksum), למידת מכונה, ניתוח הקשר ועוד.
רשימת הגלאים המובנים של סוגי המידע מתעדכנת כל הזמן. רשימה מלאה של מזהי InfoType מובנים שנתמכים כרגע זמינה בחומר העזר בנושא גילוי InfoType.
אפשר גם להציג רשימה מלאה של כל הגלאים המובנים של Infotype על ידי קריאה לשיטה infoTypes.list של Sensitive Data Protection.
מזהים מותאמים אישית של סוגי מידע
יש שלושה סוגים של גלאי סוגי מידע בהתאמה אישית:
- מזהים רגילים של מילונים מותאמים אישית
- מזהים של מילונים מותאמים אישית שנשמרו
- ביטויים רגולריים (regex)
כדי לשפר את תוצאות הסריקה, אפשר ליצור כללי בדיקה.
מזהים מותאמים אישית של מילונים רגילים
כדי להתאים רשימה קצרה (עד כמה עשרות אלפים) של מילים או ביטויים, משתמשים בגלאים רגילים של מילון מותאם אישית. מילון רגיל בהתאמה אישית יכול לשמש כמזהה ייחודי משלו.
מזהים של מילונים בהתאמה אישית שימושיים כשרוצים לסרוק רשימה של מילים או ביטויים שלא קל להתאים להם ביטוי רגולרי או מזהה מובנה. לדוגמה, נניח שאתם רוצים לסרוק חדרי ישיבות שמתייחסים אליהם בדרך כלל לפי השמות שהוקצו להם ולא לפי מספרי החדרים, כמו שמות של מדינות או אזורים, ציוני דרך, דמויות בדיוניות וכן הלאה. אפשר ליצור מזהה מותאם אישית של מילון רגיל שמכיל רשימה של שמות החדרים האלה. Sensitive Data Protection יכול לסרוק את התוכן שלכם כדי למצוא את כל אחד משמות החדרים, ולהחזיר התאמה כשהוא נתקל באחד מהם בהקשר. בקטע פרטים ספציפיים על התאמה למילון במאמר יצירת כלי רגיל לזיהוי מילון בהתאמה אישית מוסבר איך Sensitive Data Protection מתאימה מילים וביטויים במילון.
לפרטים נוספים על אופן הפעולה של מזהים רגילים של סוגי מידע בהתאמה אישית במילון, וגם לדוגמאות, אפשר לעיין במאמר יצירת מזהה רגיל של סוג מידע בהתאמה אישית במילון.
מזהים של מילונים מותאמים אישית שנשמרו
מומלץ להשתמש בגלאים של מילונים מותאמים אישית שנשמרו אם יש לכם יותר מכמה מילים או ביטויים לסריקה, או אם רשימת המילים או הביטויים משתנה לעיתים קרובות. מזהים של מילונים מותאמים אישית שמאוחסנים יכולים להתאים לעשרות מיליוני מילים או ביטויים.
מזהים של מילונים מותאמים אישית מאוחסנים, מעצם טבעם כמזהים מותאמים אישית גדולים מאוד, נוצרים באופן שונה ממזהים של ביטויים רגולריים בהתאמה אישית וממזהים של מילונים מותאמים אישית רגילים. כל מילון מותאם אישית מאוחסן מורכב משני רכיבים:
- רשימה של ביטויים שאתם יוצרים ומגדירים. הרשימה מאוחסנת כקובץ טקסט ב-Cloud Storage או כעמוד בטבלה ב-BigQuery.
- קובצי המילון שנוצרו, שנבנו על ידי Sensitive Data Protection על סמך רשימת הביטויים שלכם. קבצי המילון מאוחסנים ב-Cloud Storage, והם כוללים עותק של נתוני הביטויים של המקור, בנוסף למסנני בלום שעוזרים בחיפוש ובהתאמה. אי אפשר לערוך את הקבצים האלה ישירות.
אחרי שיוצרים רשימת מילים ואז משתמשים ב-Sensitive Data Protection כדי ליצור מילון מותאם אישית, מתחילים סריקה או מתזמנים סריקה באמצעות גלאי מילון מותאם אישית מאוחסן, באופן דומה לגלאי Infotype אחרים.
לפרטים נוספים על אופן הפעולה של גלאים של מילונים מותאמים אישית מאוחסנים, וגם דוגמאות לשימוש, אפשר לעיין במאמר בנושא יצירת גלאי של מילון מותאם אישית מאוחסן.
ביטויים רגולריים
מזהה Infotype בהתאמה אישית של ביטוי רגולרי (regex) מאפשר לכם ליצור מזהי Infotype משלכם, שמאפשרים ל-Sensitive Data Protection לזהות התאמות על סמך דפוס של ביטוי רגולרי. לדוגמה, נניח שיש לכם מספרי רשומות רפואיות בפורמט ###-#-#####. אפשר להגדיר תבנית של ביטוי רגולרי (regex) כמו זו שבהמשך:
[1-9]{3}-[1-9]{1}-[1-9]{5}
הכלי Sensitive Data Protection יתאים פריטים כמו:
123-4-56789
אפשר גם לציין סבירות להקצאה לכל התאמה של סוג מידע מותאם אישית. כלומר, כש-Sensitive Data Protection מזהה התאמה לרצף שציינתם, הוא ישייך את הסבירות שציינתם.
השימוש בשיטה הזו מועיל כי אם הביטוי הרגולרי המותאם אישית מגדיר רצף שכיח מספיק, הוא יכול להתאים בקלות לרצף אקראי אחר, ולא תרצו ש-Sensitive Data Protection יסמן כל התאמה כ-VERY_LIKELY. פעולה כזו תפגע באמינות של תוצאות הסריקה, ועלולה לגרום להסרת הפרטים המזהים של מידע שגוי.
מידע נוסף על גלאים של סוגי מידע בהתאמה אישית באמצעות ביטויים רגולריים ודוגמאות לשימוש בהם זמין במאמר יצירת גלאי של ביטויים רגולריים בהתאמה אישית.