支持的文件类型和扫描模式

本页面列出了 Sensitive Data Protection 可以扫描的文件类型,并介绍了 Sensitive Data Protection 用于分析文件的扫描模式。

检查和去标识化操作支持的文件类型

下表显示了 Sensitive Data Protection 可以检查和转换(去标识化)的文件类型。

Sensitive Data Protection 依靠文件扩展名和媒体 (MIME) 类型来确定要扫描的文件类型以及要应用的扫描模式。例如,即使 .txt 文件是结构化 CSV 文件,敏感数据保护也会以纯文本模式扫描该文件,而通常情况下,系统会以结构化解析模式扫描 CSV 文件。

文件类型 文件扩展名 限制 扫描模式 转换支持
Apache Avro

avro

Avro 限制 结构化解析
Comma- or tab-separated values

csv、tsv

结构化解析 对内容进行去标识化处理
PDF

pdf

PDF 限制 智能文档解析
Text

asc、brf、c、c++、cc、cpp、cs、css、cxx、dart、eml、go、h、h++、hh、hpp、hs、htm、html、hxx、ini、java、js、json、jsonl、lhs、m、markdown、md、mkd、ml、mli、ocaml、php、pht、phtml、pl、pm、py、pyw、rb、rbw、rc、rs、scala、sh、shtm、shtml、sql、tex、text、txt、vcard、vcs、wml、xhtml、xml、xsd、xsl、yaml、yml

纯文本 对内容进行去标识化处理
Microsoft Word

docm、docx、dotm、dotx

Word 限制 智能文档解析
Microsoft Excel

xlsm、xlsx、xltm、xltx

Excel 限制 智能文档解析
Microsoft Powerpoint

potm、potx、pptm、pptx

PowerPoint 限制 智能文档解析
Image

bmp、gif、jpe、jpeg、jpg、png

  • OCR
  • 图片内容检测
  • 图片内容分类
隐去
Binary

无法识别的文件类型以及无法使用光学字符识别 (OCR)、图片内容检测或图片内容分类功能扫描的图片。

二进制

发现操作中支持的文件集群

在发现过程中,Sensitive Data Protection 会将检测到的文件整理到文件集群中。这些集群是相似文件类型的分组。下表显示了支持的文件集群和文件扩展名。并非所有检测到的文件都可扫描。

随着 Sensitive Data Protection 增加对更多文件集群的支持,文件可能会在文件集群之间移动。随着扫描支持范围的扩大,发现服务可能会开始扫描之前未扫描过的文件。系统会按照探索版价格中的说明向您收取费用。

文件集群 文件扩展名 限制 扫描模式
Text

asc、eml、htm、html、ini、json、jsonL、log、markdown、md、mkd、plist、shtm、shtml、sql、tex、text、txt、vcard、vcs、xsd、xsl

纯文本
Source Code

bat、brf、c、c++、cc、cmd、cpp、cs、css、cxx、dart、go、h、hh、 hpp、hs、hxx、java、js、lhs、m、ml、ocaml、php、phtm、phtml、pl、ps1、py、 pyw、rb、rbw、rc、rs、scala、scpt、scr、script、sh、sql、vb、vbs、wml、xml、 yaml、yml

纯文本
Structured Data

avro、csv、tsv、proto

针对 Avro、CSV 和 TSV 文件的结构化解析。针对 proto 文件的纯文本解析
Rich Documents

doc、docm、docx、dotm、dotx、pdf、potm、potx、ppt、pptm、pptx、xls、xlsm、xlsx、xltm、xltx

系统会扫描小于 30 MiB 的受支持 PDF、Microsoft Word、Excel 和 PowerPoint 文件。 智能文档解析
Images

bmp、gif、heic、ico、jpe、jpeg、jpg、pm、png、svg、tiff、webp

支持图片扫描的区域中,小于 4 MiB 的受支持图片(bmp、gif、jpe、jpeg、jpg 和 png)会使用 OCR 进行扫描。
  • OCR
  • 图片内容检测
  • 图片内容分类
Executables

ac、air、apk、app、appimage、bas、bin、bms、class、cls、com、command、ctl、ctx、dca、ddf、dep、dll、dob、dox、dsr、dsx、dws、exe、frm、frx、gadget、ipa、mpk、oca、ocx、pag、pgx、pif、pyc、res、run、scb、tlb、vbd、vbg、vbl、vbp、vbr、vbw、vbz、vlx、wct、widget、workflow、wsf、x86、x86_64、xap、xbe、xlm

目前未扫描
Archives

7z、a、ace、afa、alz、apk、ar、arc、arj、ark、b1、b6z、ba、bh、cab、car、cdx、cfs、cpio、cpt、dar、dd、dgc、dmg、ear、esd、gca、genozip、gz、ha、hki、ice、ima、img、iso、jar、kgb、lha、lpaq#*、lzh、lzx、mou、pak、paq#*、paq6、paq7、paq8 及变体、partimg、pea、phar、pim、pit、qda、rar、rk、run、s7z、sda、sea、sen、sfx、shar、shk、sit、sitx、sqx、swm、tar、tar.bz2、tar.gz、tar.lz4、tar.lzma、tar.xz、tar.z、tgz、uc、uc0、uc2、uca、ucn、ue2、uha、ur2、war、wim、xar、xp3、yz1、zip、zipx、zoo、zpaq、zz

敏感数据保护功能会扫描归档中具有以下文件扩展名的文件:bz2、cpio、gz、jar、lz4、lzma、tar、tar.bz2、tar.gz、tar.lz4、tar.lzma、tar.xz、tar.z、xz、z、zip

用于扫描每个文件的扫描模式取决于文件类型。

Multimedia

3g2、3gp、8svx、aa、aac、aax、act、aiff、alac、amr、amv、ape、asf、au、avi、awb、cda、drc、dss、dvf、f4a、f4b、f4p、f4v、flac、flv、gif、gifv、gsm、iklax、ivs、M2TS、m2v、m4a、m4b、m4p、m4p(含 DRM)、m4v、mkv、mmf、mng、mogg、mov、movpkg、mp2、mp3、mp4、mpc、mpe、mpeg、mpg、mpv、msv、MTS、mxf、nmf、nsv、oga、ogg、ogv、opus、qt、ra、raw、rf64、rm、rmvb、roq、sln、svi、TS、tta、viv、vob、voc、vox、wav、webm、wma、wmv、wv、yuv

目前未扫描
AI Models

caffemodel、ckpt、coreml、dlc、ggjt、ggmf、ggml、gguf、h5、keras、llamafile、mar、mleap、nc、npy、npz、onnx、pb、pkl、prompt、pt、pt2、pte、pth、ptl、safetensors、surml、tflite、tfrecords

目前未扫描
Unknown 不属于任何其他聚类的任何其他文件。 这些文件缺少扩展名或使用常见但非标准的扩展名,例如 .dat 或 .1 或 .2 目前未扫描

Cloud Storage 中无法识别的文件类型

如果在存储扫描期间无法识别某个文件,则默认情况下,系统会将其扫描为二进制文件。它会尝试将内容转换为 UTF_8,然后将其扫描为纯文本。

如果在发现扫描期间无法识别某个文件,则系统不会扫描该文件。

如果您有一组文件因 Sensitive Data Protection 无法识别而要跳过,则可以使用 CloudStorageOptions.file_set.regex_file_set.exclude_regex 指定排除列表。

每个文件扫描的字节数上限

一般来说,您可以限制每个文件扫描的字节数。在Google Cloud 控制台中,您可以通过启用抽样来执行此操作。在 Cloud Data Loss Prevention API 中,您可以设置 bytes_limit_per_filebytesLimitPerFilePercent 字段。

在 OCR 和智能解析模式下,不支持抽样。也就是说,当以 OCR 或智能文档解析模式扫描以下文件类型时,Sensitive Data Protection 会忽略您为限制每个文件的扫描字节数而应用的任何设置。

  • 肖像
  • Microsoft Excel
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

如果您以二进制模式扫描这些文件,则会受到这些限制。

扫描模式

每种扫描模式都会在检查发现结果中提供其他位置详细信息

扫描模式 备注 要提供的其他位置详细信息
二进制

如果文件无法解析为任何其他类型,系统会将其转换为 UTF_8 并扫描为文本。二进制扫描会影响检测质量。

智能文档解析

通过从格式中提取的文本来解析文档。系统会在支持图片的区域中使用 OCR 扫描嵌入的图片。在这些区域之外,图片将作为二进制文件进行扫描。

DocumentLocation
元数据提取

除了文件的内容外,从 Cloud Storage 扫描的所有文件都将进行 metadata 扫描。

MetadataLocation
光学字符识别 (OCR)

支持图片扫描的区域中,Sensitive Data Protection 会使用 OCR 在图片中查找基于文本的 infoType。

ImageLocation
图片内容检测

在支持图片扫描的区域,Sensitive Data Protection 可以直接分析图片像素和特征,而不是从图片中提取的文本。此扫描模式专注于在图片中定位特定商品,并在该商品周围生成一个边界框。例如,此扫描模式可以检测图像中特定位置的人或条形码。

对于检查或遮盖配置中指定的任何对象 infoType,Sensitive Data Protection 都会使用此扫描模式。

ImageLocation
图片内容分类

在支持图片扫描的区域,Sensitive Data Protection 可以直接分析图片像素和特征,而不是从图片中提取的文本。此扫描模式会分析整个图片,以分配单个主题或类别,并生成标签或分类。

对于检查或遮盖配置中指定的任何图片上下文 infoType 检测器,Sensitive Data Protection 都会使用此扫描模式。

ImageLocation
纯文本

无其他详细信息
结构化解析

结构信息用于影响结果。在此扫描模式下,Sensitive Data Protection 使用标题信息来了解上下文。它会执行跨行和跨列分析以查找关联数据。例如,此扫描模式可以确定组成部分分散在一行中多个列内的街道地址。

扫描结果包含结构信息,例如包含发现结果的行和列的名称。

发现结果不会超出表格的单元格边界。

RecordLocation

在结构化解析模式下扫描结构化文件

当您扫描结构化文件(例如 Avro、CSV 或 TSV 文件)时,敏感数据保护会尝试以结构化解析扫描模式扫描该文件。与二元扫描相比,这种扫描模式具有更高的检测质量,因为结构化解析模式会搜索结构化数据中行与列之间的相关性。返回的结果会附带额外的元数据,用于指明结果的位置,包括 fieldId

不过,在以下情况下,敏感数据保护可能会恢复为二进制扫描模式,该模式不包含结构化解析模式的增强功能:

  • 文件或标头已损坏。
  • 检查作业配置的大小限制(例如 bytesLimitPerFilebytesLimitPerFilePercent)太小。例如,如果 bytesLimitPerFile 限制不足以包含完整的块标头和至少一行有效数据,则 Sensitive Data Protection 可能会以二进制扫描模式扫描该文件。

扫描的数据选择取决于抽样是设置为从文件顶部开始还是从随机位置开始。

例如,假设您有一个 Avro 文件,其中包含 50 KB 的块标头和 2 MB 的数据块。一般来说,从顶部开始采样有助于确保 Sensitive Data Protection 始终将块头包含在所采集的样本中。如果您从文件中的随机位置开始抽样,并且样本大小小于数据块,则块头可能不会包含在样本中。在此示例中,将样本大小(由 bytesLimitPerFilebytesLimitPerFilePercent 指定)增加到 2.05 MB 有助于防止检查恢复为二进制解析模式。

示例:如果样本大小过小,检查可能不包含块头。
示例:如果样本大小过小,检查可能不包含块标头(点击可放大)。