Los resultados del análisis se clasifican según la probabilidad que tienen de representar una coincidencia. Sensitive Data Protection usa una representación de probabilidad separada en depósitos que se usa para indicar qué tan probable es que un dato coincida con un infoType particular.
Cómo funciona la probabilidad
Cuando configuras un análisis de Sensitive Data Protection, estableces los Infotipos que quieres que Sensitive Data Protection analice. Para limitar los resultados del análisis, puedes establecer un nivel de probabilidad mínimo en tu solicitud.
Para cada posible coincidencia (resultado) que se detecta durante el análisis, Sensitive Data Protection asigna un nivel de probabilidad. El nivel de probabilidad de un resultado describe la probabilidad de que el resultado coincida con un Infotipo que estás analizando. Por ejemplo, Sensitive Data Protection podría asignar una probabilidad de LIKELY a un resultado que parece una dirección de correo electrónico.
Cuando Sensitive Data Protection muestra los resultados, filtra cualquier resultado que tenga una probabilidad menor que el nivel de probabilidad mínimo que estableciste en tu solicitud. Por ejemplo, si estableces la probabilidad mínima en
POSSIBLE, solo obtendrás los resultados que se evaluaron como POSSIBLE,
LIKELY, y VERY_LIKELY. Si estableces la probabilidad mínima en VERY_LIKELY, obtendrás la menor cantidad de resultados.
Niveles de probabilidad
En la siguiente tabla, se enumeran los valores de probabilidad posibles que Sensitive Data Protection puede asignar a un resultado.
| ENUM | Descripción |
|---|---|
VERY_UNLIKELY |
Se caracteriza por lo siguiente:
|
UNLIKELY |
Se caracteriza por lo siguiente:
|
POSSIBLE |
Se caracteriza por lo siguiente:
|
LIKELY |
Se caracteriza por uno o más indicadores sólidos para un Infotipo determinado Los indicadores pueden incluir sumas de verificación aprobadas, pistas contextuales sólidas y un formato único y específico. |
VERY_LIKELY |
Se caracteriza por tener muchos indicadores sólidos para un Infotipo determinado Los indicadores pueden incluir sumas de verificación aprobadas, pistas contextuales sólidas y un formato único y específico. |
Cómo elegir un nivel de probabilidad mínimo para los resultados del análisis
En general, cuando estableces un nivel de probabilidad mínimo más alto en tu solicitud de Sensitive Data Protection, los resultados tienen una menor cantidad de falsos positivos (a veces llamados ruido). Sin embargo, los resultados también pueden excluir más verdaderos positivos. Elegir un nivel de probabilidad mínimo implica encontrar el equilibrio adecuado entre la recuperación y la precisión.
Por ejemplo, supongamos que hay 10 direcciones en un documento y Sensitive Data Protection identificó 5 direcciones. Sin embargo, entre los resultados que identificó Sensitive Data Protection, en realidad solo hay 4 direcciones.
- La recuperación es la cantidad de instancias verdaderas positivas de la cantidad total de instancias relevantes. En este ejemplo, la recuperación es de 4/10.
- La precisión es la cantidad de instancias verdaderas positivas de la cantidad total de instancias que identifica Sensitive Data Protection. En este ejemplo, la precisión es de 4/5.
En este ejemplo, la precisión es alta, pero la recuperación es relativamente baja.
El nivel de probabilidad mínimo que estableces afecta el nivel de recuperación y precisión que obtienes en los resultados del análisis. En la siguiente tabla, se describe cuándo es útil cada nivel de probabilidad mínimo y cómo varían la recuperación y la precisión en cada nivel.
| Nivel de probabilidad mínimo | Descripción |
|---|---|
LIKELIHOOD_UNSPECIFIED |
Valor predeterminado; igual que POSSIBLE. |
VERY_UNLIKELY |
Es útil si necesitas la recuperación más alta. Este nivel de probabilidad mínimo genera la mayor cantidad de ruido. |
UNLIKELY |
Es útil si necesitas una recuperación más alta. Este nivel de probabilidad mínimo genera algo de ruido. |
POSSIBLE |
Es útil si deseas un equilibrio entre la precisión y la recuperación. |
LIKELY |
Es útil si necesitas una mayor precisión a expensas de cierta recuperación. |
VERY_LIKELY |
Es útil si deseas la mayor precisión a expensas de la recuperación. |
Probabilidad mínima predeterminada
Si no estableces una probabilidad mínima en tu solicitud o si la estableces en LIKELIHOOD_UNSPECIFIED, Sensitive Data Protection solo muestra los resultados con una probabilidad de POSSIBLE o superior.