已知问题

本页面列出了 Sensitive Data Protection 的已知问题,以及可以避免这些问题或在发生此类问题时恢复服务的方法。

将结果存储到 BigQuery

当作业或发现扫描将结果存储到 BigQuery 时,日志中会显示 Already exists 错误。此错误并不表示存在问题;您的结果将按预期存储。

BigQuery 扫描

本部分介绍了在检查 BigQuery 数据进行数据剖析时可能会遇到的问题。

检查和数据剖析操作的常见问题

以下问题适用于 BigQuery 检查和数据剖析操作。

无法扫描具有行级安全性的行

行级安全性政策可能会 阻止 Sensitive Data Protection 检查受保护的 BigQuery 表并对其进行数据剖析。 如果您的 BigQuery 表应用了行级安全性政策,我们建议您设置 TRUE 过滤条件并将服务代理添加到被授予者列表中:

重复行

在将数据写入 BigQuery 表时,Sensitive Data Protection 可能会写入重复行。

最近流式传输的数据

Sensitive Data Protection 不会扫描最近流式传输的数据(以前称为“流式传输缓冲区”)。 如需了解详情,请参阅 BigQuery 文档中的流式传输数据 可用性

BigQuery 检查问题

以下问题仅适用于对 BigQuery 数据执行的检查操作。它们不会影响数据剖析文件。

导出的发现结果中 row_number 字段没有值

当您配置 Sensitive Data Protection 以将发现结果保存到 BigQuery 时,系统会在扫描输入表时推断生成的 BigQuery 表中的 location.content_locations.record_location.record_key.big_query_key.row_number 字段。其值是不确定的,无法查询,并且对于检查作业可以为 null。

如果需要标识存在发现结果的特定行,请在创建作业时指定 inspectJob.storageConfig.bigQueryOptions.identifyingFields

在生成的 BigQuery 表的 location.content_locations.record_location.record_key.id_values 字段中可以找到标识字段。

将扫描限制为仅扫描新的 BigQuery 内容

如果您将扫描限制为仅扫描新 内容,并且 使用 BigQuery Storage Write API 填充输入表,则 Sensitive Data Protection 可能会跳过扫描某些行。

为缓解此问题,请在您的 检查作业中,确保 timestampFieldTimespanConfig 对象是 BigQuery 自动生成的提交时间戳。 不过,由于 Sensitive Data Protection 不会读取 最近流式传输的数据,因此仍无法保证不会跳过任何行。

如果您想为列自动生成提交时间戳,并且使用 旧版流式传输 API填充 输入表,请执行以下操作:

  1. 在输入表的架构中,确保时间戳列的类型为 TIMESTAMP

    架构示例

    以下示例定义了 commit_time_stamp 字段,并将其类型设置为 TIMESTAMP

    ...
    {
     "name": "commit_time_stamp",
     "type": "TIMESTAMP"
    }
    ...
    
  2. tabledata.insertAll 方法的rows[].json字段中,确保时间戳列中的值设置为AUTO

    JSON 示例

    以下示例将 commit_time_stamp 字段的值设置为 AUTO

    {
      ...
      "commit_time_stamp": "AUTO",
      ...
    }
    

通过设置最大百分比或行数来限制扫描

当您根据表行总数的百分比 rows (rowsLimitPercent) 设置抽样限制时, Sensitive Data Protection 可能会检查超出预期的行数。如果您需要对要扫描的行数设置硬性限制,我们建议您改为设置最大行数 (rowsLimit)。

BigQuery 数据剖析问题

以下问题仅适用于对 BigQuery 数据执行的数据剖析操作。如需了解详情,请参阅 BigQuery 数据的数据剖析文件

拥有超过 5 亿个表的组织或项目

如果您尝试对拥有超过 5 亿个表的组织或项目进行数据剖析,Sensitive Data Protection 将返回错误。如果您遇到此错误,请按照错误消息中的说明操作。

如果您的组织拥有超过 5 亿个表,但您有些项目的表数量较少,则请尝试执行项目级层扫描。

如需了解表和列的限制,请参阅数据剖析限制

检查模板

检查模板必须与要剖析的数据位于同一区域。如果您的数据位于多个区域,请使用多个检查模板,每个区域对应一个模板。 您还可以使用存储在 global 区域中的检查模板。 如果您在 global 区域中添加模板,Sensitive Data Protection 会将其用于任何没有区域专用模板的数据。如需了解详情, 请参阅 数据驻留注意事项

存储的 InfoType

检查模板中引用的存储的 InfoType(也称为 存储的自定义字典检测器)必须存储在以下任一位置:

  • global 区域。
  • 与检查模板相同的区域。

否则,数据剖析操作将失败,并显示错误 Resource not found

资源可见性

在表数据剖析文件中,系统为 BigQuery 表指定的资源可见性分类取决于包含该表的数据集的可见性,而不是表的可见性。因此,如果表的 IAM 权限与数据集的 IAM 权限不同,则数据剖析文件中指示的表的资源可见性可能不正确。此问题会影响 BigQuery 的 发现Vertex AI 的发现

在 Google Cloud 控制台中,资源可见性在表数据 剖析文件的 公开 字段中指示。在 Cloud Data Loss Prevention API 中,资源可见性 在 resourceVisibilityTableDataProfile字段中指示。

对于永不过期的表,过期时间戳不正确

在 2025 年 7 月至 2026 年 6 月期间,某些保存到 BigQuery 的 表数据剖析文件expiration_time 中包含不正确的 1970-01-01 时间戳,而不是永不过期的表的 NULL

Cloud Storage 扫描

本部分介绍了在检查 数据或对其进行去标识化时可能会遇到的问题。

不支持检查 Strict XLSX 文件

扩展名为 .xlsx 的文件可以是以下两种类型之一。一种是 Strict Office Open XML 电子表格,Sensitive Data Protection 不支持这种类型。 另一种是默认的 Microsoft Excel 工作簿,这种类型受支持。

以二进制模式扫描结构化文件

在某些情况下,通常以结构化解析模式扫描的文件可能会以二进制模式扫描,这种模式不包含结构化解析模式的增强功能。如需了解详情,请参阅以结构化解析模式 扫描结构化文件 。

对分隔文件进行去标识化

当您使用检查作业对分隔文件(例如 CSV 文件)进行 去标识化时, 输出中的某些行可能会包含额外的空单元格。为避免这些额外的单元格,您可以改用 content.deidentify方法对数据进行去标识化。

Cloud SQL 发现

Security Command Center 重复发现结果

Cloud SQL 数据剖析支持将发现结果发布到 Security Command Center。

在 2024 年 4 月 25 日之前,一个 bug 导致 Sensitive Data Protection 偶尔会在 Security Command Center 中为 Cloud SQL 实例生成重复的发现结果。 这些发现结果是使用唯一的发现结果 ID 生成的,但它们与相同的 Cloud SQL 实例相关。此问题已得到解决,但重复的发现结果仍然存在。您可以 将重复项静音,以 在 Security Command Center 的 发现结果 页面上隐藏它们。

Amazon S3 发现

Sensitive Data Protection 发送到 Security Command Center 的 Amazon S3 发现结果可能不包含受影响资源的 AWS 账号 ID 或显示名称的相关信息。这通常发生在以下情况中:

  • 在发现结果发送到 Security Command Center 时,AWS 连接器仅有效约 24 小时。
  • 在发现结果发送到 Security Command Center 时,AWS 账号仅包含在 AWS 连接器中约 24 小时。

如需解决此问题,请在大约 24 小时后,通过删除数据 剖析文件或 通过设置数据剖析 时间表来重新生成数据 剖析文件。 完整的发现结果详细信息将发送到 Security Command Center。

智能文档解析

本部分包含与文档解析相关的已知问题。

DocumentLocation 对象未填充

对于智能文档解析扫描模式,系统不会填充 location.content_locations.document_location.file_offset 字段。

检测

以下已知问题介绍了检测方面的问题,无论您执行的操作是检查、去标识化还是发现,这些问题都适用。

字典字词

包含 Unicode 标准 补充 多语言平面 中的字符的字典字词可能会产生意外的发现结果。 此类字符的示例包括表情符号、科学符号和历史脚本。