Os resultados da verificação são categorizados com base na probabilidade de representarem alguma correspondência. A Proteção de Dados Sensíveis usa uma representação de probabilidade agrupada por classes, com o objetivo de indicar a probabilidade de uma parte dos dados corresponder a determinado infoType.
Como a probabilidade funciona
Ao configurar uma verificação da Proteção de Dados Sensíveis, você define os infoTypes que quer que a Proteção de Dados Sensíveis verifique. Para restringir os resultados da verificação, você pode definir um nível mínimo de probabilidade na solicitação.
Para cada correspondência potencial (descoberta) detectada durante a verificação, a Proteção de Dados Sensíveis atribui um nível de probabilidade. O nível de probabilidade de uma descoberta descreve a probabilidade de a descoberta corresponder a um infoType que você está verificando. Por exemplo, a Proteção de Dados Sensíveis pode atribuir uma probabilidade de LIKELY a uma descoberta que parece um endereço de e-mail.
Quando a Proteção de Dados Sensíveis retorna os resultados, ela filtra todas as descobertas que têm uma probabilidade menor que o nível mínimo de probabilidade definido na solicitação. Por exemplo, se você definir a probabilidade mínima como
POSSIBLE, receberá apenas as descobertas avaliadas como POSSIBLE,
LIKELY, e VERY_LIKELY. Se você definir a probabilidade mínima como VERY_LIKELY, receberá o menor número de descobertas.
Níveis de probabilidade
A tabela a seguir lista os valores de probabilidade possíveis que a Proteção de Dados Sensíveis pode atribuir a uma descoberta.
| ENUM | Descrição |
|---|---|
VERY_UNLIKELY |
Caracterizado por:
|
UNLIKELY |
Caracterizado por:
|
POSSIBLE |
Caracterizado por:
|
LIKELY |
Caracterizado por um ou mais indicadores fortes para um determinado infoType. Os indicadores podem incluir somas de verificação aprovadas, pistas contextuais fortes e formatação exclusiva e específica. |
VERY_LIKELY |
Caracterizado por ter muitos indicadores fortes para um determinado infoType. Os indicadores podem incluir somas de verificação aprovadas, pistas contextuais fortes e formatação exclusiva e específica. |
Como escolher um nível mínimo de probabilidade para os resultados da verificação
Em geral, quando você define um nível mínimo de probabilidade mais alto na solicitação da Proteção de Dados Sensíveis, os resultados têm um número menor de falsos positivos (às vezes chamados de ruído). No entanto, os resultados também podem excluir mais verdadeiros positivos. A escolha de um nível mínimo de probabilidade envolve encontrar o equilíbrio certo entre recall e precisão.
Por exemplo, suponha que haja 10 endereços de rua em um documento e a Proteção de Dados Sensíveis tenha identificado 5 endereços de rua. No entanto, entre as descobertas identificadas pela Proteção de Dados Sensíveis, há apenas 4 endereços de rua.
- Recall é o número de instâncias verdadeiras positivas do número total de instâncias relevantes. Neste exemplo, o recall é 4/10.
- Precisão é o número de instâncias verdadeiras positivas do número total de instâncias identificadas pela Proteção de Dados Sensíveis. Neste exemplo, a precisão é 4/5.
Neste exemplo, a precisão é alta, mas o recall é relativamente baixo.
O nível mínimo de probabilidade definido afeta o nível de recall e precisão que você recebe nos resultados da verificação. A tabela a seguir descreve quando cada nível mínimo de probabilidade é útil e como o recall e a precisão variam em cada nível.
| Nível mínimo de probabilidade | Descrição |
|---|---|
LIKELIHOOD_UNSPECIFIED |
Valor padrão; igual a POSSIBLE. |
VERY_UNLIKELY |
Útil se você precisar do maior recall. Esse nível mínimo de probabilidade gera mais ruído. |
UNLIKELY |
Útil se você precisar de um recall maior. Esse nível mínimo de probabilidade gera algum ruído. |
POSSIBLE |
Útil se você quiser um equilíbrio entre precisão e recall. |
LIKELY |
Útil se você precisar de uma precisão maior à custa de algum recall. |
VERY_LIKELY |
Útil se você quiser a maior precisão à custa do recall. |
Probabilidade mínima padrão
Se você não definir uma probabilidade mínima na solicitação ou se ela for definida como LIKELIHOOD_UNSPECIFIED, a Proteção de Dados Sensíveis retornará apenas as descobertas com uma probabilidade de POSSIBLE e maior.