创建自定义元数据标签检测器

您可以配置 Sensitive Data Protection,以检测内容中的特定元数据标签。元数据可以从支持的文件类型中自动提取,也可以由您的应用在检查请求中提供。如果 Sensitive Data Protection 发现符合元数据条件的内容,就会生成发现结果。

如需扫描元数据标签,请创建自定义元数据标签 infoType。然后,配置检查或发现扫描,以搜索该 infoType。

优势和用例

借助此功能,您可以使用现有的分类分类法进行检查和强制执行政策。如果您使用可将元数据标签应用于文档的自定义或第三方分类系统,则可以配置 Sensitive Data Protection,以便在检查或发现操作期间检测这些元数据标签。

示例使用场景包括:

  • 扫描文件,查找包含特定键值对的 Microsoft 敏感度标签
  • 将元数据标签检测与标准 infoType 检测相结合,实现多层检测。
  • 扫描您的应用随内容传递的元数据,即使元数据未嵌入到文件中也是如此。
  • 使用 Model Armor 根据特定元数据标签清理文档。如需将此功能与 Model Armor 或使用 Model Armor 的服务(例如 Gemini Enterprise)搭配使用,您必须在 Model Armor 中创建高级 Sensitive Data Protection 配置,以引用此自定义元数据标签检测器。

支持的文件类型

  • DOCX
  • PDF
  • PPTX
  • XLSX

支持的元数据格式

此功能可以检测 Microsoft Purview 信息保护元数据和客户端提供的元数据。

Microsoft Purview 信息保护元数据

此功能可以检测具有以下名称格式的 Microsoft Purview 信息保护元数据:

MSIP_Label_GUID_ATTRIBUTE

替换以下内容:

  • GUID:元数据的全局唯一标识符。
  • ATTRIBUTE:元数据的 Microsoft 信息保护属性。接受的值:

    • ActionId
    • ContentBits
    • Enabled
    • Method
    • Name
    • SetDate
    • SiteId

客户端提供的元数据

您可以直接在 InspectContent 请求中提供自定义元数据。客户端提供的元数据是键值对列表,在 ContentItemContentMetadata 字段中传递。

限制

以下内容不支持 MetadataKeyValueExpression 类型的自定义 infoType:

创建元数据标签自定义 infoType 检测器

如需创建元数据标签自定义 infoType 检测器,请在 InspectConfig 对象中定义类型为 MetadataKeyValueExpressionCustomInfoTypeCustomInfoType 对象具有以下属性:

{
  "inspect_config": {
    "custom_info_types": [
      {
        "info_type": {
          "name": "CUSTOM_METADATA_LABEL_NAME"
        },
        "likelihood": "LIKELIHOOD",
        "sensitivityScore":{
          "score": "SENSITIVITY_SCORE"
        },
        "metadata_key_value_expression": {
          "key_regex": "KEY_REGULAR_EXPRESSION",
          "value_regex": "VALUE_REGULAR_EXPRESSION"
        }
      }
    ]
  }
}

替换以下内容:

  • CUSTOM_METADATA_LABEL_NAME:要分配给自定义 infoType 检测器的名称。
  • LIKELIHOOD:(可选)要分配给与此自定义 infoType 匹配的所有结果的 Likelihood 值。如果省略此字段,则默认可能性级别为 VERY_LIKELY
  • SENSITIVITY_SCORE:(可选)要分配给与此自定义 infoType 匹配的所有发现的 SensitivityScore。如果省略此字段,则默认敏感度得分是 HIGH

    敏感度得分用于数据分析结果。在分析数据时,Sensitive Data Protection 会使用 infoType 的敏感度得分来计算敏感度级别

  • KEY_REGULAR_EXPRESSION:用于在元数据标签的键中进行搜索的正则表达式。

  • VALUE_REGULAR_EXPRESSION:用于在元数据标签的值中进行搜索的正则表达式。

Microsoft 敏感度标签的检测器示例

inspect_config 示例定义了一个名为 CUSTOM_MIP_HIGHLY_CONFIDENTIAL 的自定义 infoType。此自定义 infoType 会检测包含 GUID 12345678-9012-3456-7890-123456789012 且已启用的 Microsoft Purview 信息保护标签:

{
  "inspect_config": {
    "custom_info_types": [
      {
        "info_type": {
          "name": "CUSTOM_MIP_HIGHLY_CONFIDENTIAL"
        },
        "likelihood": "VERY_LIKELY",
        "metadata_key_value_expression": {
          "key_regex": "MSIP_Label_12345678-9012-3456-7890-123456789012_Enabled",
          "value_regex": "true"
        }
      }
    ],
    "min_likelihood": "POSSIBLE"
  }
}

如果您在检查作业中使用此配置,Sensitive Data Protection 会在发现元数据键 MSIP_Label_12345678-9012-3456-7890-123456789012_Enabled 的值为 true 的内容时生成 CUSTOM_MIP_HIGHLY_CONFIDENTIAL 检测结果。

扫描客户端提供的元数据

如需扫描客户端提供的元数据标签,请按以下步骤操作:

  1. 创建自定义元数据标签 infoType 检测器。
  2. ContentItemContentMetadata 字段中添加要扫描的元数据。

扫描客户端提供的元数据的请求示例

以下示例展示了一个 InspectContent 请求,其中包含 PDF 文件和客户提供的元数据。该请求使用名为 CUSTOM_MIP_CONFIDENTIAL_INTERNAL_USE 的自定义 infoType 扫描文件和提供的元数据,以查找标记为“机密”或“内部使用”的文件。

{
  "inspect_config": {
    "custom_info_types": [
      {
        "info_type": {
          "name": "CUSTOM_MIP_CONFIDENTIAL_INTERNAL_USE"
        },
        "likelihood": "VERY_LIKELY",
        "metadata_key_value_expression": {
          "key_regex": "MSIP_Label_.*_Name",
          "value_regex": "Confidential|Internal Use"
        }
      }
    ]
  },
  "item": {
    "byte_item": {
      "type": "PDF",
      "data": "BASE64_ENCODED_PDF"
    },
    "content_metadata": {
      "properties": [
        {
          "key": "MSIP_Label_174b6716-c2ea-4041-b631-5633733fbe46_Name",
          "value": "Confidential"
        }
      ]
    }
  }
}

BASE64_ENCODED_PDF 替换为要扫描的 base64 编码文件。

如果 Sensitive Data Protection 在客户提供的元数据中找到匹配项,则 MetadataLocation 的发现结果的 MetadataTypeCLIENT_PROVIDED_METADATA。如果匹配项位于文件提取的元数据中(例如 MSIP 标签),则值为 CONTENT_METADATA

MetadataLocationMetadataType 根据匹配项是在文件提取的元数据中还是在客户端提供的元数据中填充。

后续步骤