תוצאות הסריקה מסווגות לפי הסבירות שהן מייצגות התאמה. Sensitive Data Protection משתמש בייצוג של הסתברות שמחולק לקטגוריות, שמטרתו להצביע על הסבירות שפריט נתונים תואם לinfoType מסוים.
איך פועל מדד הסבירות
כשמגדירים סריקה של Sensitive Data Protection, קובעים את ה-infoTypes שרוצים ש-Sensitive Data Protection יסרוק. כדי לצמצם את תוצאות הסריקה, אפשר להגדיר רמת סבירות מינימלית בבקשה.
לכל התאמה פוטנציאלית (ממצא) שזוהתה במהלך הסריקה, Sensitive Data Protection מקצה רמת סבירות. רמת הסבירות של ממצא מתארת את הסבירות שהממצא תואם לסוג מידע שאתם סורקים כדי למצוא. לדוגמה, יכול להיות ש-Sensitive Data Protection יקצה את רמת הסבירות LIKELY לממצא שנראה כמו כתובת אימייל.
כש-Sensitive Data Protection מחזיר את התוצאות, הוא מסנן את כל הממצאים שרמת הסבירות שלהם נמוכה מרמת הסבירות המינימלית שהגדרתם בבקשה. לדוגמה, אם מגדירים את הסבירות המינימלית ל-POSSIBLE, מקבלים רק את הממצאים שסווגו כ-POSSIBLE, LIKELY ו-VERY_LIKELY. אם מגדירים את הסבירות המינימלית ל-VERY_LIKELY, מקבלים את המספר הקטן ביותר של ממצאים.
רמות סבירות
בטבלה הבאה מפורטים ערכי הסבירות האפשריים ש-Sensitive Data Protection יכול להקצות לממצא.
| ENUM | תיאור |
|---|---|
VERY_UNLIKELY |
המאפיינים של המדיניות הזו הם:
|
UNLIKELY |
המאפיינים של המדיניות הזו הם:
|
POSSIBLE |
המאפיינים של המדיניות הזו הם:
|
LIKELY |
מאופיין באות חזק אחד או יותר עבור סוג מידע נתון. האותות יכולים לכלול סיכומי ביקורת שעברו בהצלחה, רמזים חזקים מההקשר ופורמט ייחודי וספציפי. |
VERY_LIKELY |
מאופיין בכך שיש הרבה אותות חזקים עבור infoType נתון. האותות יכולים לכלול סיכומי ביקורת שעברו בהצלחה, רמזים חזקים מההקשר ועיצוב ייחודי וספציפי. |
בחירת רמת הסבירות המינימלית לתוצאות הסריקה
באופן כללי, כשמגדירים רמת סבירות מינימלית גבוהה יותר בבקשה ל-Sensitive Data Protection, התוצאות כוללות מספר נמוך יותר של תוצאות חיוביות שגויות (לפעמים נקראות רעשי רקע). עם זאת, התוצאות יכולות גם לא לכלול יותר תוצאות חיוביות אמיתיות. כשבוחרים רמת סבירות מינימלית, צריך למצוא את האיזון הנכון בין היזכרות ודיוק.
לדוגמה, נניח שיש 10 כתובות רחוב במסמך, ושירות Sensitive Data Protection זיהה 5 כתובות רחוב. עם זאת, מבין הממצאים שזוהו על ידי Sensitive Data Protection, יש למעשה רק 4 כתובות.
- היזכרות היא מספר המקרים החיוביים האמיתיים מתוך המספר הכולל של המקרים הרלוונטיים. בדוגמה הזו, הזיכרון הוא 4/10.
- דיוק הוא מספר המקרים החיוביים האמיתיים מתוך המספר הכולל של המקרים שמזוהים על ידי Sensitive Data Protection. בדוגמה הזו, הדיוק הוא 4/5.
בדוגמה הזו, רמת הדיוק גבוהה אבל רמת האחזור נמוכה יחסית.
רמת הסבירות המינימלית שאתם מגדירים משפיעה על רמת ההיזכרות ועל רמת הדיוק שמתקבלות בתוצאות הסריקה. בטבלה הבאה מתואר מתי כל רמת סבירות מינימלית שימושית, ואיך משתנים ההחזרה והדיוק בכל רמה.
| רמת הסבירות המינימלית | תיאור |
|---|---|
LIKELIHOOD_UNSPECIFIED |
ערך ברירת המחדל זהה לערך POSSIBLE. |
VERY_UNLIKELY |
האפשרות הזו שימושית אם אתם צריכים את רמת ההיזכרות הגבוהה ביותר. רמת הסבירות המינימלית הזו יוצרת הכי הרבה רעש. |
UNLIKELY |
האפשרות הזו שימושית אם אתם צריכים דיוק גבוה יותר. רמת הסבירות המינימלית הזו יוצרת רעש מסוים. |
POSSIBLE |
כדאי להשתמש בשיטה הזו אם רוצים איזון בין דיוק לבין היקף התוצאות. |
LIKELY |
האפשרות הזו שימושית אם אתם צריכים דיוק גבוה יותר, גם אם זה אומר שחלק מהתוצאות לא יהיו רלוונטיות. |
VERY_LIKELY |
האפשרות הזו שימושית אם רוצים לקבל את הדיוק הכי גבוה, גם אם זה בא על חשבון ההיזכרות. |
סבירות מינימלית שמוגדרת כברירת מחדל
אם לא מגדירים סבירות מינימלית בבקשה, או אם מגדירים אותה ל-LIKELIHOOD_UNSPECIFIED, Sensitive Data Protection מחזירה רק את הממצאים עם סבירות של POSSIBLE ומעלה.