Probabilité de correspondance

Les résultats de l'analyse sont catégorisés en fonction de la probabilité qu'ils représentent une correspondance. Sensitive Data Protection utilise une représentation divisée en buckets selon le degré de vraisemblance, ce qui permet d'indiquer la probabilité qu'une donnée corresponde à un infoType spécifique.

Fonctionnement de la probabilité

Lorsque vous configurez une analyse Sensitive Data Protection, vous définissez les infoTypes que vous souhaitez que Sensitive Data Protection analyse. Pour affiner les résultats de l'analyse, vous pouvez définir un niveau de probabilité minimal dans votre requête.

Pour chaque correspondance potentielle (résultat) détectée lors de l'analyse, Sensitive Data Protection attribue un niveau de probabilité. Le niveau de probabilité d'un résultat décrit la probabilité qu'il corresponde à un infoType que vous analysez. Par exemple, Sensitive Data Protection peut attribuer une probabilité LIKELY à un résultat qui ressemble à une adresse e-mail.

Lorsque Sensitive Data Protection renvoie les résultats, il filtre tous les résultats dont la probabilité est inférieure au niveau de probabilité minimal que vous avez défini dans votre requête. Par exemple, si vous définissez la probabilité minimale sur POSSIBLE, vous n'obtenez que les résultats évalués comme POSSIBLE, LIKELY, et VERY_LIKELY. Si vous définissez la probabilité minimale sur VERY_LIKELY, vous obtenez le plus petit nombre de résultats.

Niveaux de probabilité

Le tableau suivant répertorie les valeurs de probabilité possibles que Sensitive Data Protection peut attribuer à un résultat.

ENUM Description
VERY_UNLIKELY Caractérisé par les éléments suivants :
  • Signal faible.
  • Absence d'indices contextuels.
  • Signaux négatifs pour un infoType donné.
UNLIKELY Caractérisé par les éléments suivants :
  • Un ou plusieurs signaux faibles.
  • Signal plus fort pour un autre infoType.
POSSIBLE Caractérisé par les éléments suivants :
  • Un ou plusieurs signaux pour un infoType donné. Les signaux peuvent inclure des sommes de contrôle réussies.
  • Absence d'indice contextuel fort et de mise en forme unique et spécifique.
LIKELY Caractérisé par un ou plusieurs signaux forts pour un infoType donné. Les signaux peuvent inclure des sommes de contrôle réussies, des indices contextuels forts et une mise en forme unique et spécifique.
VERY_LIKELY Caractérisé par de nombreux signaux forts pour un infoType donné. Les signaux peuvent inclure des sommes de contrôle réussies, des indices contextuels forts et une mise en forme unique et spécifique.

Choisir un niveau de probabilité minimal pour les résultats de l'analyse

En général, lorsque vous définissez un niveau de probabilité minimal plus élevé dans votre requête Sensitive Data Protection, les résultats comportent moins de faux positifs (parfois appelés bruit). Toutefois, les résultats peuvent également exclure davantage de vrais positifs. Le choix d'un niveau de probabilité minimal implique de trouver le juste équilibre entre rappel et précision.

Supposons, par exemple, qu'un document contienne 10 adresses postales et que Sensitive Data Protection en ait identifié 5. Toutefois, parmi les résultats identifiés par Sensitive Data Protection, il n'y a en fait que 4 adresses postales.

  • Le rappel correspond au nombre d'instances de vrais positifs sur le nombre total d'instances pertinentes. Dans cet exemple, le rappel est de 4/10.
  • La précision correspond au nombre d'instances de vrais positifs sur le nombre total d'instances identifiées par Sensitive Data Protection. Dans cet exemple, la précision est de 4/5.

Dans cet exemple, la précision est élevée, mais le rappel est relativement faible.

Le niveau de probabilité minimal que vous définissez affecte le niveau de rappel et de précision que vous obtenez dans les résultats de votre analyse. Le tableau suivant décrit quand chaque niveau de probabilité minimal est utile, et comment le rappel et la précision varient à chaque niveau.

Niveau de probabilité minimal Description
LIKELIHOOD_UNSPECIFIED Valeur par défaut ; identique à POSSIBLE.
VERY_UNLIKELY Utile si vous avez besoin du rappel le plus élevé. Ce niveau de probabilité minimal génère le plus de bruit.
UNLIKELY Utile si vous avez besoin d'un rappel plus élevé. Ce niveau de probabilité minimal génère du bruit.
POSSIBLE Utile si vous souhaitez un équilibre entre précision et rappel.
LIKELY Utile si vous avez besoin d'une précision plus élevée au détriment d'un certain rappel.
VERY_LIKELY Utile si vous souhaitez la plus haute précision au détriment du rappel.

Probabilité minimale par défaut

Si vous ne définissez pas de probabilité minimale dans votre requête ou si vous la définissez sur LIKELIHOOD_UNSPECIFIED, Sensitive Data Protection ne renvoie que les résultats dont la probabilité est POSSIBLE ou supérieure.