Probabilidad de coincidencia

Los resultados del análisis se clasifican según la probabilidad que tienen de representar una coincidencia. Sensitive Data Protection usa una representación de probabilidad separada en depósitos que se usa para indicar qué tan probable es que un dato coincida con un infoType particular.

Cómo funciona la probabilidad

Cuando configuras un análisis de Sensitive Data Protection, estableces los Infotipos que quieres que Sensitive Data Protection analice. Para limitar los resultados del análisis, puedes establecer un nivel de probabilidad mínimo en tu solicitud.

Para cada posible coincidencia (resultado) que se detecta durante el análisis, Sensitive Data Protection asigna un nivel de probabilidad. El nivel de probabilidad de un resultado describe la probabilidad de que el resultado coincida con un Infotipo que estás analizando. Por ejemplo, Sensitive Data Protection podría asignar una probabilidad de LIKELY a un resultado que parece una dirección de correo electrónico.

Cuando Sensitive Data Protection muestra los resultados, filtra cualquier resultado que tenga una probabilidad menor que el nivel de probabilidad mínimo que estableciste en tu solicitud. Por ejemplo, si estableces la probabilidad mínima en POSSIBLE, solo obtendrás los resultados que se evaluaron como POSSIBLE, LIKELY, y VERY_LIKELY. Si estableces la probabilidad mínima en VERY_LIKELY, obtendrás la menor cantidad de resultados.

Niveles de probabilidad

En la siguiente tabla, se enumeran los valores de probabilidad posibles que Sensitive Data Protection puede asignar a un resultado.

ENUM Descripción
VERY_UNLIKELY Se caracteriza por lo siguiente:
  • Una señal débil
  • Ausencia de pistas contextuales
  • Indicadores negativos para un Infotipo determinado
UNLIKELY Se caracteriza por lo siguiente:
  • Uno o más indicadores débiles
  • Un indicador más fuerte para otro Infotipo
POSSIBLE Se caracteriza por lo siguiente:
  • Uno o más indicadores hacia un Infotipo determinado Los indicadores pueden incluir sumas de verificación aprobadas.
  • Falta de una pista contextual sólida y un formato único y específico
LIKELY Se caracteriza por uno o más indicadores sólidos para un Infotipo determinado Los indicadores pueden incluir sumas de verificación aprobadas, pistas contextuales sólidas y un formato único y específico.
VERY_LIKELY Se caracteriza por tener muchos indicadores sólidos para un Infotipo determinado Los indicadores pueden incluir sumas de verificación aprobadas, pistas contextuales sólidas y un formato único y específico.

Cómo elegir un nivel de probabilidad mínimo para los resultados del análisis

En general, cuando estableces un nivel de probabilidad mínimo más alto en tu solicitud de Sensitive Data Protection, los resultados tienen una menor cantidad de falsos positivos (a veces llamados ruido). Sin embargo, los resultados también pueden excluir más verdaderos positivos. Elegir un nivel de probabilidad mínimo implica encontrar el equilibrio adecuado entre la recuperación y la precisión.

Por ejemplo, supongamos que hay 10 direcciones en un documento y Sensitive Data Protection identificó 5 direcciones. Sin embargo, entre los resultados que identificó Sensitive Data Protection, en realidad solo hay 4 direcciones.

  • La recuperación es la cantidad de instancias verdaderas positivas de la cantidad total de instancias relevantes. En este ejemplo, la recuperación es de 4/10.
  • La precisión es la cantidad de instancias verdaderas positivas de la cantidad total de instancias que identifica Sensitive Data Protection. En este ejemplo, la precisión es de 4/5.

En este ejemplo, la precisión es alta, pero la recuperación es relativamente baja.

El nivel de probabilidad mínimo que estableces afecta el nivel de recuperación y precisión que obtienes en los resultados del análisis. En la siguiente tabla, se describe cuándo es útil cada nivel de probabilidad mínimo y cómo varían la recuperación y la precisión en cada nivel.

Nivel de probabilidad mínimo Descripción
LIKELIHOOD_UNSPECIFIED Valor predeterminado; igual que POSSIBLE.
VERY_UNLIKELY Es útil si necesitas la recuperación más alta. Este nivel de probabilidad mínimo genera la mayor cantidad de ruido.
UNLIKELY Es útil si necesitas una recuperación más alta. Este nivel de probabilidad mínimo genera algo de ruido.
POSSIBLE Es útil si deseas un equilibrio entre la precisión y la recuperación.
LIKELY Es útil si necesitas una mayor precisión a expensas de cierta recuperación.
VERY_LIKELY Es útil si deseas la mayor precisión a expensas de la recuperación.

Probabilidad mínima predeterminada

Si no estableces una probabilidad mínima en tu solicitud o si la estableces en LIKELIHOOD_UNSPECIFIED, Sensitive Data Protection solo muestra los resultados con una probabilidad de POSSIBLE o superior.