系統會根據掃描結果表示相符項目的可能性進行分類。 Sensitive Data Protection 採用特徵分塊的方式來表示可能性,藉此代表一筆資料符合特定 infoType 的可能性。
可能性運作方式
設定 Sensitive Data Protection 掃描時,您可以指定要掃描的 infoType。如要縮小掃描結果範圍,可以在要求中設定最低可能性等級。
掃描期間偵測到的每個潛在相符項目 (發現項目),都會由 Sensitive Data Protection 指派可能性等級。發現項目的可能性等級說明該發現項目與您掃描的 infoType 相符的可能性。舉例來說,如果發現項目類似電子郵件地址,Sensitive Data Protection 可能會指派 LIKELY 的可能性。
Sensitive Data Protection 傳回結果時,會篩除可能性低於您在要求中設定最低可能性的發現項目。舉例來說,如果將最低可能性設為 POSSIBLE,您只會看到評估結果為 POSSIBLE、LIKELY 和 VERY_LIKELY 的發現項目。如果將最低可能性設為 VERY_LIKELY,您會取得最少的發現項目。
可能性等級
下表列出 Sensitive Data Protection 可能指派給發現項目的可能可能性值。
| ENUM | 說明 |
|---|---|
VERY_UNLIKELY |
具有下列特點:
|
UNLIKELY |
具有下列特點:
|
POSSIBLE |
具有下列特點:
|
LIKELY |
針對特定 infoType 具有一或多個強烈信號。信號可能包括傳遞檢查碼、強烈的脈絡線索,以及獨特且特定的格式。 |
VERY_LIKELY |
針對特定 infoType 具有許多強烈信號。 信號可能包括傳遞檢查碼、強烈的脈絡線索,以及獨特且特定的格式。 |
為掃描結果選擇最低可能性層級
一般來說,在 Sensitive Data Protection 要求中設定較高的最低可能性層級時,結果的誤判數 (有時稱為「雜訊」) 會較少。但結果也可能排除更多真正符合條件的項目。選擇最低可能性等級時,必須在召回和準確度之間取得適當平衡。
舉例來說,假設文件中有 10 個街道地址,而私密/機密資料保護功能識別出 5 個街道地址。不過,在 Sensitive Data Protection 發現的結果中,實際上只有 4 個街道地址。
- 喚回度是指相關執行個體總數中,真陽性執行個體的數量。在本範例中,喚回度為 4/10。
- 精確度是指 Sensitive Data Protection 識別出的執行個體總數中,真正屬於正向的執行個體數量。在本範例中,精確度為 4/5。
在這個範例中,精確度很高,但喚回度相對較低。
您設定的最低可能性層級會影響掃描結果的喚回度和精確度。下表說明各個最低可能性等級的適用時機,以及各等級的召回率和精確度差異。
| 最低可能性等級 | 說明 |
|---|---|
LIKELIHOOD_UNSPECIFIED |
預設值,與 POSSIBLE 相同。 |
VERY_UNLIKELY |
如果您需要最高召回率,這項功能就非常實用。這個最低可能性層級會產生最多雜訊。 |
UNLIKELY |
如果需要較高的召回率,這項功能就非常實用。這個最低可能性層級會產生一些雜訊。 |
POSSIBLE |
如要在精確度與喚回度之間取得平衡,這項指標即可派上用場。 |
LIKELY |
如果需要較高的精確度,但可犧牲部分召回率,這項功能就非常實用。 |
VERY_LIKELY |
如果想以喚回度為代價,換取最高精確度,這個方法就非常實用。 |
預設最低可能性
如果未在要求中設定最低可能性,或將其設為 LIKELIHOOD_UNSPECIFIED,Sensitive Data Protection 只會傳回可能性為 POSSIBLE 以上的發現項目。