本页面列出了 Sensitive Data Protection 的已知问题,以及可以避免这些问题或在发生此类问题时恢复服务的方法。
将结果存储到 BigQuery
当作业或发现扫描将结果存储到 BigQuery 时,日志中会显示 Already exists 错误。此错误并不表示存在问题;您的结果将按预期存储。
BigQuery 扫描
本部分介绍了在检查 或对 BigQuery 数据进行数据剖析时可能会遇到的问题。
检查和数据剖析操作的常见问题
以下问题适用于 BigQuery 检查和数据剖析操作。
无法扫描具有行级安全性的行
行级安全性政策可能会 阻止 Sensitive Data Protection 检查受保护的 BigQuery 表并对其进行数据剖析。 如果您的 BigQuery 表应用了行级安全性政策,我们建议您设置 TRUE 过滤条件并将服务代理添加到被授予者列表中:
- 如果您要在组织级层或文件夹级层对数据进行数据剖析,请将容器 项目的服务代理添加到被授予者列表中。
- 如果您要在项目级层对数据进行数据剖析,或者 对表运行检查作业,请将 项目的服务代理添加到被授予者列表中。
重复行
在将数据写入 BigQuery 表时,Sensitive Data Protection 可能会写入重复行。
最近流式传输的数据
Sensitive Data Protection 不会扫描最近流式传输的数据(以前称为“流式传输缓冲区”)。 如需了解详情,请参阅 BigQuery 文档中的流式传输数据 可用性。
BigQuery 检查问题
以下问题仅适用于对 BigQuery 数据执行的检查操作。它们不会影响数据剖析文件。
导出的发现结果中 row_number 字段没有值
当您配置 Sensitive Data Protection 以将发现结果保存到 BigQuery 时,系统会在扫描输入表时推断生成的 BigQuery 表中的 location.content_locations.record_location.record_key.big_query_key.row_number 字段。其值是不确定的,无法查询,并且对于检查作业可以为 null。
如果需要标识存在发现结果的特定行,请在创建作业时指定 inspectJob.storageConfig.bigQueryOptions.identifyingFields。
在生成的 BigQuery 表的 location.content_locations.record_location.record_key.id_values 字段中可以找到标识字段。
将扫描限制为仅扫描新的 BigQuery 内容
如果您将扫描限制为仅扫描新 内容,并且 使用 BigQuery Storage Write API 填充输入表,则 Sensitive Data Protection 可能会跳过扫描某些行。
为缓解此问题,请在您的 检查作业中,确保 timestampField 的
TimespanConfig
对象是 BigQuery 自动生成的提交时间戳。
不过,由于
Sensitive Data Protection 不会读取
最近流式传输的数据,因此仍无法保证不会跳过任何行。
如果您想为列自动生成提交时间戳,并且使用 旧版流式传输 API填充 输入表,请执行以下操作:
在输入表的架构中,确保时间戳列的类型为
TIMESTAMP。架构示例
以下示例定义了
commit_time_stamp字段,并将其类型设置为TIMESTAMP:... { "name": "commit_time_stamp", "type": "TIMESTAMP" } ...在
tabledata.insertAll方法的rows[].json字段中,确保时间戳列中的值设置为AUTO。JSON 示例
以下示例将
commit_time_stamp字段的值设置为AUTO:{ ... "commit_time_stamp": "AUTO", ... }
通过设置最大百分比或行数来限制扫描
当您根据表行总数的百分比
rows
(rowsLimitPercent) 设置抽样限制时,
Sensitive Data Protection 可能会检查超出预期的行数。如果您需要对要扫描的行数设置硬性限制,我们建议您改为设置最大行数 (rowsLimit)。
BigQuery 数据剖析问题
以下问题仅适用于对 BigQuery 数据执行的数据剖析操作。如需了解详情,请参阅 BigQuery 数据的数据剖析文件。
拥有超过 5 亿个表的组织或项目
如果您尝试对拥有超过 5 亿个表的组织或项目进行数据剖析,Sensitive Data Protection 将返回错误。如果您遇到此错误,请按照错误消息中的说明操作。
如果您的组织拥有超过 5 亿个表,但您有些项目的表数量较少,则请尝试执行项目级层扫描。
如需了解表和列的限制,请参阅数据剖析限制。
检查模板
检查模板必须与要剖析的数据位于同一区域。如果您的数据位于多个区域,请使用多个检查模板,每个区域对应一个模板。
您还可以使用存储在 global 区域中的检查模板。
如果您在 global 区域中添加模板,Sensitive Data Protection 会将其用于任何没有区域专用模板的数据。如需了解详情,
请参阅 数据驻留注意事项。
存储的 InfoType
检查模板中引用的存储的 InfoType(也称为 存储的自定义字典检测器)必须存储在以下任一位置:
global区域。- 与检查模板相同的区域。
否则,数据剖析操作将失败,并显示错误 Resource not found。
资源可见性
在表数据剖析文件中,系统为 BigQuery 表指定的资源可见性分类取决于包含该表的数据集的可见性,而不是表的可见性。因此,如果表的 IAM 权限与数据集的 IAM 权限不同,则数据剖析文件中指示的表的资源可见性可能不正确。此问题会影响 BigQuery 的 发现和 Vertex AI 的发现。
在 Google Cloud 控制台中,资源可见性在表数据
剖析文件的 公开 字段中指示。在 Cloud Data Loss Prevention API 中,资源可见性
在 resourceVisibility
的
TableDataProfile字段中指示。
对于永不过期的表,过期时间戳不正确
在 2025 年 7 月至 2026 年 6 月期间,某些保存到 BigQuery 的 表数据剖析文件
在
expiration_time
中包含不正确的 1970-01-01 时间戳,而不是永不过期的表的 NULL。
Cloud Storage 扫描
本部分介绍了在检查 数据或对其进行去标识化时可能会遇到的问题。
不支持检查 Strict XLSX 文件
扩展名为 .xlsx 的文件可以是以下两种类型之一。一种是 Strict Office Open XML 电子表格,Sensitive Data Protection 不支持这种类型。
另一种是默认的 Microsoft Excel 工作簿,这种类型受支持。
以二进制模式扫描结构化文件
在某些情况下,通常以结构化解析模式扫描的文件可能会以二进制模式扫描,这种模式不包含结构化解析模式的增强功能。如需了解详情,请参阅以结构化解析模式 扫描结构化文件 。
对分隔文件进行去标识化
当您使用检查作业对分隔文件(例如 CSV 文件)进行
去标识化时,
输出中的某些行可能会包含额外的空单元格。为避免这些额外的单元格,您可以改用 content.deidentify方法对数据进行去标识化。
Cloud SQL 发现
Security Command Center 重复发现结果
Cloud SQL 数据剖析支持将发现结果发布到 Security Command Center。
在 2024 年 4 月 25 日之前,一个 bug 导致 Sensitive Data Protection 偶尔会在 Security Command Center 中为 Cloud SQL 实例生成重复的发现结果。 这些发现结果是使用唯一的发现结果 ID 生成的,但它们与相同的 Cloud SQL 实例相关。此问题已得到解决,但重复的发现结果仍然存在。您可以 将重复项静音,以 在 Security Command Center 的 发现结果 页面上隐藏它们。
Amazon S3 发现
Sensitive Data Protection 发送到 Security Command Center 的 Amazon S3 发现结果可能不包含受影响资源的 AWS 账号 ID 或显示名称的相关信息。这通常发生在以下情况中:
- 在发现结果发送到 Security Command Center 时,AWS 连接器仅有效约 24 小时。
- 在发现结果发送到 Security Command Center 时,AWS 账号仅包含在 AWS 连接器中约 24 小时。
如需解决此问题,请在大约 24 小时后,通过删除数据 剖析文件或 通过设置数据剖析 时间表来重新生成数据 剖析文件。 完整的发现结果详细信息将发送到 Security Command Center。
智能文档解析
本部分包含与文档解析相关的已知问题。
DocumentLocation 对象未填充
对于智能文档解析扫描模式,系统不会填充 location.content_locations.document_location.file_offset 字段。
检测
以下已知问题介绍了检测方面的问题,无论您执行的操作是检查、去标识化还是发现,这些问题都适用。
字典字词
包含 Unicode 标准 补充 多语言平面 中的字符的字典字词可能会产生意外的发现结果。 此类字符的示例包括表情符号、科学符号和历史脚本。