指标参考文档

本页面列出并描述了在数据剖析文件中收集的所有指标。

数据剖析文件有三种类型:项目数据剖析文件表数据剖析文件列数据剖析文件

项目数据分析文件

每个项目数据分析文件都含有以下字段。这些字段的值根据项目中剖析的资源进行汇总。

数据分析

项目数据分析文件可提供以下数据分析:

数据风险
与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别
敏感程度
指示此项目的敏感度级别的得分。如需了解详情, 请参阅敏感度和数据风险级别

元数据

项目数据分析文件可提供以下元数据:

上次生成分析文件的时间
上次生成分析文件的日期和时间。
项目 ID
已剖析的项目的 ID。
资源名称
数据分析的完全限定名称。
状态
指示剖析操作状态的图标。

表数据分析文件

每个表数据分析文件都含有以下字段:

数据分析

表数据分析文件可提供以下数据分析:

数据风险
与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别
敏感程度
表示此表格的敏感度得分。 如需了解详情,请参阅敏感度和数据风险级别

元数据

表数据分析文件可提供以下元数据:

数据库
包含已剖析表的数据库。此字段仅适用于 Cloud SQL 发现
数据集 ID
包含此表的数据集的 ID。
加密
此表的加密是由 Google 还是贵组织管理。
到期时间

可选。此表到期的时间。

失败的列数

由于错误而在此表中跳过的列数。

检查配置快照

生成剖析文件时使用的检查模板 的快照。如需了解详情,请参阅 数据分析快照

实例

包含已剖析表的实例。此字段仅适用于 Cloud SQL 发现

上次生成分析文件的时间

上次生成分析文件的日期和时间。

在 BigQuery 中的最近更新时间

此表上次修改的日期和时间。

项目 ID

包含此表的项目的 ID。

公开

此表是可供所有用户使用还是仅限特定用户使用。

资源标签

标签,该表在生成 分析文件时具有。

资源标记

标记,表在生成分析文件时具有的 标记。

资源名称

数据分析的完全限定名称。

行数

生成分析文件时此表中的行数。

扫描的列数

此表中已剖析的列数。

服务账号

拥有访问此表所需的 IAM 权限的服务账号数。

状态

指示分析文件是否成功生成。

表 ID

此表的 ID。

表创建时间

表的创建日期和时间。

表格大小

生成分析文件时此表的大小。

类型

执行的发现类型

列数据分析文件

每个列数据分析文件都含有以下字段:

数据分析

列数据分析文件可提供以下数据分析:

数据风险
与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别
敏感程度
指示此列的敏感度级别的分数。如需了解详情,请参阅敏感度和数据风险级别
预测的 infoType

如果某个 内置自定义 infoType 明显优于此列中的其他项,Sensitive Data Protection 会将此字段设置为该 infoType。否则,此字段没有值。

如需查看在该列中检测到的所有 infoType 的列表,请参阅其他 infoType 字段。

Sensitive Data Protection 仅扫描您在 检查模板中指定的 infoType。因此,只有这些 infoType 才会显示在预测的 infoType 字段中。例如,如果列含有电子邮件地址,但未在检查模板中添加 EMAIL_ADDRESS infoType 检测器,则此字段不包含 EMAIL_ADDRESS

如果列数据主要与属于同一通用类别的多个密切相关的 infoType 匹配,Sensitive Data Protection 会将此字段设置为更通用的 infoType。例如,如果列 主要包含 PASSPORTAUSTRALIA_PASSPORTCANADA_PASSPORT infoType 的混合,则 预测的 infoType 字段会设置为 PASSPORT其他 infoType 字段会显示更具体的 infoType 及其估算的普及率。

其他 infoType

在该列中检测到的 infoType,其信号强度不足以被视为该列的预测 infoType。 在本文档中,请参阅 预测的 infoType

对于 2022 年 10 月 13 日之后生成的数据剖析文件,此字段中列出的每个 infoType 都有估算的普及率。 估算的普及率是指检测到该 infoType 的非 null 行所占的近似百分比。

例如,假设您有一列,其中包含以下指标:

  • 预测的 infoTypeFDA_CODE
  • 其他 infoTypePERSON_NAME (2%)STREET_ADDRESS (1%)

在此示例中,有强烈的迹象表明该列包含 FDA 代码。Sensitive Data Protection 还确定,该列中大约 2% 的非 null 行可能包含人名,1% 的非 null 行可能包含街道地址。

Sensitive Data Protection 仅扫描您在 检查模板中指定的 infoType。因此,只有这些 infoType 才会显示在其他 infoType 字段中。例如,如果列含有电子邮件地址,但未在检查模板中添加 EMAIL_ADDRESS infoType 检测器,则此字段不包含 EMAIL_ADDRESS

估算的 null 值所占比例

此列中 null 值所占的近似比例,分为高、中、低或非常低。如果此列中很大一部分条目为 null,则此值为高。

估算的唯一性

对此列中唯一数据的估算,分为高、中或低。唯一性级别越高,表明该列包含的唯一值越多。唯一值越多,可能表明该列包含标识符。

唯一性级别越低,表明该列包含的共同值越多,如枚举值或布尔值。

如果 Sensitive Data Protection 确定表中的行数不足以计算此指标,则此值为空。

自由文本得分

此列包含自由格式文本的概率。值接近 1 表示该列可能包含自由格式文本或自然语言文本。可能的值范围是 0 到 1 之间。

高自由文本得分可以提高列的数据风险和敏感度 等级

元数据

列数据分析文件可提供以下元数据:

数据库
包含已剖析表列的数据库。此字段仅适用于 Cloud SQL 发现
数据类型
此列所含内容的数据类型。
数据集 ID
包含此表列的数据集的 ID。
字段 ID
列的名称。
实例
包含已剖析表列的实例。此字段仅适用于 Cloud SQL 发现
实例位置
包含已剖析表列的实例的位置。此字段仅适用于 Cloud SQL 发现。
上次生成分析文件的时间
上次生成分析文件的日期和时间。
政策标记
指示政策标记是否应用于列。如需了解使用政策标记的最佳实践,请参阅在 BigQuery中使用政策标记。
项目 ID
包含此表列的项目的 ID。
资源名称
数据分析的完全限定名称。
状态
指示剖析操作状态的图标。
表 ID
包含此列的表的 ID。

文件存储区数据分析文件

Sensitive Data Protection 使用术语“文件存储区”来指代文件存储桶或容器。

每个文件存储区数据分析文件都含有以下字段。

数据分析

文件存储区数据分析文件可提供以下数据分析:

数据风险
与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别
文件集群
提供在剖析此文件存储区时检测到的每个文件集群的摘要。如需详细了解每个摘要,请参阅本页面上的文件集群 摘要
敏感程度
指示此文件存储区的敏感度级别的得分。 如需了解详情,请参阅敏感度和数据风险级别

元数据

文件存储区数据分析文件可提供以下元数据:

数据存储位置

如果您剖析的是 双区域 Cloud Storage 存储桶,则此字段会列出这两个 区域。

如果您剖析的是来自其他云供应商的文件存储区,则此值是云供应商存储该文件存储区的区域。

加密

此文件存储区的加密是由 Google 还是贵组织管理。

文件存储区类型

已剖析数据的来源 - Cloud Storage、Amazon S3 或 Azure Blob Storage。

文件存储区路径

文件存储区的名称。

检查配置快照

生成剖析文件时使用的检查模板 的快照。如需了解详情,请参阅 数据分析快照

位置类型

文件存储区的存储位置类型:regiondual-regionmulti-region

首次创建分析文件的时间

首次创建分析文件的日期和时间。

上次生成配置文件的时间

上次生成分析文件的日期和时间。

父级 ID

拥有已剖析数据的资源。

  • 如果数据分析适用于 Google Cloud 资源,则这是包含数据的项目的 ID。
  • 如果数据分析适用于 Amazon S3 存储桶,则这是包含该存储桶的 AWS 账号的 ID。
  • 如果数据分析文件适用于 Azure Blob Storage 容器,则这是包含该容器的 Azure 订阅的 ID。
公开

此文件存储区是可供所有用户使用还是仅限特定用户使用。

资源标签

生成分析文件时文件存储区具有的标签。

资源标记

生成分析文件时文件存储区具有的 标记。

资源位置

包含文件存储区的区域或多区域。

如果您剖析的是双区域 Cloud Storage 存储桶,则此值取决于 该存储桶是否存储在预定义的双区域中:

  • 对于 预定义的双区域, Sensitive Data Protection 会将此值设置为预定义的双区域 名称。
  • 对于标准双区域,Sensitive Data Protection 会将此值设置为包含双区域的多区域。如需了解区域如何映射到多区域,请参阅双 区域
资源名称

数据分析的完全限定名称。

状态

指示分析文件是否成功生成。

文件集群摘要

生成文件存储区数据分析文件时,文件会分组到文件集群中。Sensitive Data Protection 会为每个文件集群提供摘要。

每个文件集群摘要都含有以下字段:

数据风险
与此文件集群中的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别
错误
生成文件存储区数据分析文件时检测到的任何错误。
扫描的文件扩展名
检测到并扫描以生成文件存储区数据分析文件的文件类型列表。
发现的文件扩展名
检测到但不一定扫描的文件类型列表。
InfoTypes
在此文件集群中检测到的内置自定义 infoType 的列表。
敏感程度
指示此文件集群的敏感度级别的得分。 如需了解详情,请参阅敏感度和数据风险级别
类型

指示此集群中的文件类别。如需详细了解 所有受支持的文件集群,请参阅 发现操作中支持的文件集群