扫描结果根据它们表示匹配项的可能性进行分类。Sensitive Data Protection 使用分桶化可能性表示法,该表示法用于指示数据与给定 infoType 匹配的可能性。
“可能性”的运作方式
配置 Sensitive Data Protection 扫描时,您可以设置要让 Sensitive Data Protection 扫描的 infoType。如需缩小扫描结果范围,您可以在请求中设置最低可能性级别。
对于扫描期间检测到的每个潜在匹配项(发现结果),Sensitive Data Protection 都会分配一个可能性级别。发现结果的可能性级别描述了该结果与您要扫描的 infoType 匹配的可能性。例如,Sensitive Data Protection 可能会为看起来像电子邮件地址的发现结果分配 LIKELY 的可能性。
当 Sensitive Data Protection 返回结果时,它会过滤掉所有可能性低于您在请求中设置的最低可能性等级的发现结果。例如,如果您将最低可能性设置为 POSSIBLE,则只会获得评估结果为 POSSIBLE、LIKELY 和 VERY_LIKELY 的发现结果。如果您将最小可能性设置为 VERY_LIKELY,则获得的结果数量最少。
可能性级别
下表列出了敏感数据保护功能可为检测结果分配的可能可能性值。
| ENUM | 说明 |
|---|---|
VERY_UNLIKELY |
具有以下特征:
|
UNLIKELY |
具有以下特征:
|
POSSIBLE |
具有以下特征:
|
LIKELY |
以一个或多个针对给定 infoType 的强信号为特征。 信号可以包括传递校验和、强情境线索以及独特的特定格式。 |
VERY_LIKELY |
以针对给定 infoType 具有许多强信号为特征。 信号可以包括传递校验和、强情境线索以及独特的特定格式。 |
为扫描结果选择最低可能性级别
一般来说,在敏感数据保护请求中设置的最低可能性级别越高,结果中的假正例(有时称为噪声)就越少。不过,结果也可能会排除更多真正例。选择最低似然度级别需要在召回率和精确率之间找到合适的平衡点。
例如,假设某文档中有 10 个街道地址,而敏感数据保护功能识别出了 5 个街道地址。不过,在 Sensitive Data Protection 识别出的发现结果中,实际上只有 4 个街道地址。
- 召回率是指真正例实例数占相关实例总数的比例。在此示例中,召回率为 4/10。
- 精确率是指 Sensitive Data Protection 识别出的实例总数中真正例实例的数量。在此示例中,精确率为 4/5。
在此示例中,精确率较高,但召回率相对较低。
您设置的最低可能性水平会影响扫描结果中的召回率和精确率。下表介绍了每个最低似然度级别的适用场景,以及每个级别下召回率和精确率的变化情况。
| 最低似然水平 | 说明 |
|---|---|
LIKELIHOOD_UNSPECIFIED |
默认值;与 POSSIBLE 相同。 |
VERY_UNLIKELY |
如果您需要尽可能高的召回率,此方法非常有用。此最低似然级别会产生最多的噪声。 |
UNLIKELY |
如果您需要更高的召回率,此参数会很有用。此最低似然级别会产生一些噪声。 |
POSSIBLE |
如果您希望在精确率和召回率之间取得平衡,那么该指标非常有用。 |
LIKELY |
如果您需要更高的精确率,但愿意牺牲一些召回率,则此方法非常有用。 |
VERY_LIKELY |
如果您希望以牺牲召回率为代价获得最高的精确率,此值非常有用。 |
默认最小似然
如果您未在请求中设置最低可能性,或者将其设置为 LIKELIHOOD_UNSPECIFIED,Sensitive Data Protection 将仅返回可能性为 POSSIBLE 及以上的发现结果。