Créer un détecteur de libellés de métadonnées personnalisés

Vous pouvez configurer Sensitive Data Protection pour détecter des libellés de métadonnées spécifiques dans votre contenu. Les métadonnées peuvent être extraites automatiquement des types de fichiers compatibles ou fournies par votre application dans la requête d'inspection. Si Sensitive Data Protection trouve du contenu qui correspond à vos critères de métadonnées, il génère un résultat.

Pour rechercher des libellés de métadonnées, créez un infoType de libellé de métadonnées personnalisé. Ensuite, configurez votre inspection ou votre analyse de découverte pour rechercher cet infoType.

Avantages et cas d'utilisation

Cette fonctionnalité vous permet d'utiliser vos taxonomies de classification existantes pour l'inspection et l'application des règles. Si vous utilisez un système de classification personnalisé ou tiers qui applique des libellés de métadonnées à vos documents, vous pouvez configurer Sensitive Data Protection pour détecter ces libellés de métadonnées lors de vos opérations d'inspection ou de découverte.

Voici quelques exemples de cas d'utilisation :

  • Analyser les fichiers pour détecter la présence de libellés de sensibilité Microsoft contenant des paires clé/valeur spécifiques.
  • Combiner la détection des libellés de métadonnées avec la détection standard des infoTypes pour une approche multicouche.
  • Analyser les métadonnées transmises avec le contenu par votre application, même si elles ne sont pas intégrées au fichier.
  • Nettoyer les documents à l'aide de Model Armor en fonction de libellés de métadonnées spécifiques. Pour utiliser cette fonctionnalité avec Model Armor (ou des services qui l'utilisent, comme Gemini Enterprise), vous devez créer une configuration avancée de Sensitive Data Protection dans Model Armor qui référence ce détecteur de libellés de métadonnées personnalisé.

Types de fichiers compatibles

  • DOCX
  • PDF
  • PPTX
  • XLSX

Formats de métadonnées compatibles

Cette fonctionnalité peut détecter les métadonnées Microsoft Purview Information Protection et les métadonnées fournies par le client.

Métadonnées Microsoft Purview Information Protection

Cette fonctionnalité peut détecter les métadonnées Microsoft Purview Information Protection dont le format de nom est le suivant :

MSIP_Label_GUID_ATTRIBUTE

Remplacez les éléments suivants :

  • GUID : identifiant unique global des métadonnées.
  • ATTRIBUTE: attribut Microsoft Information Protection des métadonnées. Les valeurs acceptées sont les suivantes :

    • ActionId
    • ContentBits
    • Enabled
    • Method
    • Name
    • SetDate
    • SiteId

Métadonnées fournies par le client

Vous pouvez fournir des métadonnées personnalisées directement dans une InspectContent requête. Les métadonnées fournies par le client sont une liste de paires clé/valeur transmises dans le ContentMetadata champ de la ContentItem.

Limites

Les infoTypes personnalisés de type MetadataKeyValueExpression ne sont pas compatibles avec les éléments suivants :

Créer un détecteur d'infoType de libellé de métadonnées personnalisé

Pour créer un détecteur d'infoType de libellé de métadonnées personnalisé, définissez un CustomInfoType de type MetadataKeyValueExpression dans un objet InspectConfig. L'objet CustomInfoType comporte les propriétés suivantes :

{
  "inspect_config": {
    "custom_info_types": [
      {
        "info_type": {
          "name": "CUSTOM_METADATA_LABEL_NAME"
        },
        "likelihood": "LIKELIHOOD",
        "sensitivityScore":{
          "score": "SENSITIVITY_SCORE"
        },
        "metadata_key_value_expression": {
          "key_regex": "KEY_REGULAR_EXPRESSION",
          "value_regex": "VALUE_REGULAR_EXPRESSION"
        }
      }
    ]
  }
}

Remplacez les éléments suivants :

  • CUSTOM_METADATA_LABEL_NAME: nom à attribuer au détecteur d'infoType personnalisé.
  • LIKELIHOOD : (facultatif) valeur Likelihood à attribuer à tous les résultats correspondant à cet infoType personnalisé. Si vous omettez ce champ, le niveau de probabilité par défaut est VERY_LIKELY.
  • SENSITIVITY_SCORE : (facultatif) SensitivityScore à attribuer à tous les résultats correspondant à cet infoType personnalisé. Si vous omettez ce champ, le score de sensibilité par défaut est HIGH.

    Les scores de sensibilité sont utilisés dans les profils de données. Lors du profilage de vos données, Sensitive Data Protection utilise les scores de sensibilité des infoTypes pour calculer le niveau de sensibilité.

  • KEY_REGULAR_EXPRESSION: expression régulière à rechercher dans les clés des libellés de métadonnées.

  • VALUE_REGULAR_EXPRESSION: expression régulière à rechercher dans les valeurs des libellés de métadonnées.

Exemple de détecteur pour un libellé de sensibilité Microsoft

Cet exemple inspect_config définit un infoType personnalisé nommé CUSTOM_MIP_HIGHLY_CONFIDENTIAL. Cet infoType personnalisé détecte un libellé Microsoft Purview Information Protection qui contient le GUID 12345678-9012-3456-7890-123456789012 et est activé :

{
  "inspect_config": {
    "custom_info_types": [
      {
        "info_type": {
          "name": "CUSTOM_MIP_HIGHLY_CONFIDENTIAL"
        },
        "likelihood": "VERY_LIKELY",
        "metadata_key_value_expression": {
          "key_regex": "MSIP_Label_12345678-9012-3456-7890-123456789012_Enabled",
          "value_regex": "true"
        }
      }
    ],
    "min_likelihood": "POSSIBLE"
  }
}

Lorsque vous utilisez cette configuration dans un job d'inspection, Sensitive Data Protection génère un résultat CUSTOM_MIP_HIGHLY_CONFIDENTIAL s'il trouve du contenu où la clé de métadonnées MSIP_Label_12345678-9012-3456-7890-123456789012_Enabled a la valeur true.

Analyser les métadonnées fournies par le client

Pour analyser les libellés de métadonnées fournis par le client, procédez comme suit :

  1. Créez un détecteur d'infoType de libellé de métadonnées personnalisé.
  2. Incluez les métadonnées que vous souhaitez analyser dans le champ ContentMetadata de votre ContentItem.

Exemple de requête pour analyser les métadonnées fournies par le client

L'exemple suivant montre une requête InspectContent qui inclut à la fois un fichier PDF et des métadonnées fournies par le client. La requête utilise un infoType personnalisé nommé CUSTOM_MIP_CONFIDENTIAL_INTERNAL_USE pour analyser à la fois le fichier et les métadonnées fournies pour les fichiers marqués comme "Confidentiel" ou "Usage interne".

{
  "inspect_config": {
    "custom_info_types": [
      {
        "info_type": {
          "name": "CUSTOM_MIP_CONFIDENTIAL_INTERNAL_USE"
        },
        "likelihood": "VERY_LIKELY",
        "metadata_key_value_expression": {
          "key_regex": "MSIP_Label_.*_Name",
          "value_regex": "Confidential|Internal Use"
        }
      }
    ]
  },
  "item": {
    "byte_item": {
      "type": "PDF",
      "data": "BASE64_ENCODED_PDF"
    },
    "content_metadata": {
      "properties": [
        {
          "key": "MSIP_Label_174b6716-c2ea-4041-b631-5633733fbe46_Name",
          "value": "Confidential"
        }
      ]
    }
  }
}

Remplacez BASE64_ENCODED_PDF par un fichier encodé en base64 à analyser.

Si Sensitive Data Protection trouve une correspondance dans les métadonnées fournies par le client, le MetadataType du résultat pour MetadataLocation est CLIENT_PROVIDED_METADATA. Si la correspondance se trouve dans les métadonnées extraites du fichier, telles qu'un libellé MSIP, la valeur est CONTENT_METADATA.

Le MetadataType de MetadataLocation est renseigné selon que la correspondance se trouve dans les métadonnées extraites du fichier ou fournies par le client.

Étape suivante