根据数据剖析的分析洞见在 Data Catalog 中标记表

本页介绍了如何在 Sensitive Data Protection 分析 BigQuery 表后自动将 Data Catalog 标记应用于这些表。本页还提供了示例查询,您可以使用这些查询在组织和项目中查找带标记的数据。

如果您想使用从 Sensitive Data Protection 数据分析结果中收集的洞见来丰富 Knowledge Catalog 中手动整理的元数据,此功能会非常有用。生成的标记包含以下洞见:

  • 在表的列中检测到的信息类型(infoTypes
  • 表的计算得出的敏感度级别
  • 表的计算得出的数据风险级别

Sensitive Data Protection 数据分析结果中的洞见可帮助您使用 Knowledge Catalog 发现组织中的敏感数据和高风险数据。使用这些洞见可帮助您就如何管理和治理数据做出明智的决策。

如果您想将检查作业(而非数据 分析操作)的结果发送到 Knowledge Catalog,请参阅将 Sensitive Data Protection 检查结果发送到 Data Catalog

数据分析简介

您可以将 Sensitive Data Protection 配置为自动生成有关组织、文件夹或项目中的数据的分析结果。数据分析结果包含 有关数据的指标和元数据,并可帮助您确定敏感数据和高风险数据所在的位置。 Sensitive Data Protection 会在各种细节级别报告这些指标。如需了解您可以分析的数据 类型,请参阅受支持的 资源

Knowledge Catalog 和 Data Catalog 简介

Knowledge Catalog 是一项服务,可统一分布式数据,并自动执行这些数据的管理和治理。 Google Cloud Data Catalog已弃用)是一项可伸缩的全 托管式元数据管理服务。

借助 Data Catalog,您可以使用标记和标记模板将业务元数据附加到数据。 然后,您可以在统一的服务中搜索和管理组织或项目的所有元数据。如需了解详情,请参阅 标记和标记模板

工作原理

如果您的发现扫描配置启用了以标记形式发送到 Dataplex 操作,则 Sensitive Data Protection 每次分析数据时都会执行以下操作。此操作仅适用于新的和更新的分析结果。 未更新的现有分析结果不会发送到 Knowledge Catalog。

  1. 创建一个专用标记 模板,其中包含将附加到 BigQuery 表的标记的架构。如需了解标记模板的名称、ID 和位置, 请参阅 标记模板详细信息

    只有具有适当角色和 权限的正文才能查看代码模板。

  2. 为您分析的每个 BigQuery 表创建一个标记。该代码基于新创建的代码模板。

    例如,附加到表的生成的标记可以具有以下元数据:

    显示名称
    Column Insights ccn: CREDIT_CARD_NUMBER
    first_name: PERSON_NAME
    last_name: PERSON_NAME
    ssn: US_SOCIAL_SECURITY_NUMBER
    email: EMAIL_ADDRESS
    Column Sensitivity ccn: HIGH
    first_name: MODERATE
    last_name: MODERATE
    favorite_animal: LOW
    ssn: HIGH
    email: MODERATE
    id: LOW
    Data Risk Level HIGH
    Other InfoTypes PHONE_NUMBER
    Predicted InfoTypes CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
    Profile Last Generated DATE at TIME
    Sensitive Data Profile organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
    Sensitivity Score HIGH

如果表通过以下两种方式进行分析,则该表有两个标记:

  • 组织级或文件夹级扫描配置
  • 项目级扫描配置

标记表后,您可以在 Knowledge Catalog 中搜索组织或项目中具有特定标记值的所有数据。

标记模板详细信息

模板名称、模板 ID 和存储新标记模板的项目取决于扫描配置所属的资源。

价格

如需了解其他 Google Cloud 服务可能会如何向您收取 导出数据分析结果的费用,请参阅导出数据分析结果 的价格

根据数据分析结果自动标记 BigQuery 表

  1. 创建扫描配置。或者, 修改现有扫描 配置。

  2. 添加操作 步骤中,确保以标记形式发送到 Dataplex 处于开启状态。

    • 如果您要创建扫描配置,则此操作默认处于启用状态。
    • 如果您要修改扫描配置,则必须启用此操作。

数据经过分析和标记后,您就可以开始在 Knowledge Catalog 中搜索带标记的数据。

查看标记的角色和权限

Knowledge Catalog 搜索结果仅显示您有权访问的数据。您需要拥有以下 Identity and Access Management (IAM) 角色或权限,才能搜索附加到 BigQuery 表的标记。

用途 预定义角色 相关权限
查看专用代码模板 Data Catalog TagTemplate Viewer (roles/datacatalog.tagTemplateViewer) datacatalog.tagTemplates.getTag
查看应用于 BigQuery 表的标记 BigQuery Metadata Viewer (roles/bigquery.metadataViewer) bigquery.datasets.get
bigquery.tables.get

如需详细了解 Knowledge Catalog 角色,请参阅 查看 公共标记和专用 标记的角色。

如需了解如何授予预定义角色,请参阅授予单个 角色。如果您想使用自定义角色而不是预定义角色,请确保自定义角色具有相关权限。如需了解更多 信息,请参阅创建自定义 角色

查找生成的标记模板

  1. 在 Google Cloud 控制台中,前往 Knowledge Catalog 标记模板 页面。

    转到“标记模板”

  2. 在列表中,找到代码模板。如需了解标记模板的名称、ID 和 位置,请参阅标记模板 详细信息

  3. 可选:如需查找由给定发现扫描配置生成的标记模板,请在过滤条件 字段中输入以下内容:

    name:PROJECT_ID.TAG_TEMPLATE_ID
    

    替换以下内容:

    • PROJECT_ID:与扫描配置关联的项目的 ID。如果您在组织或文件夹级层分析了数据,请输入服务代理容器的项目 ID。
    • TAG_TEMPLATE_ID:如果扫描配置适用于 组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project

查找给定表数据分析结果生成的标记

  1. 在 Google Cloud 控制台中,前往 Knowledge Catalog 搜索 页面。

    转到搜索

  2. 搜索 字段中,输入以下内容:

    name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
    

    替换以下内容:

    • TABLE_ID:已分析的表的 ID。
    • PROJECT_ID:包含标记 模板的项目的 ID。如果您在组织或文件夹级层分析了数据,请输入服务代理容器的项目 ID。
    • TAG_TEMPLATE_ID:如果扫描配置适用于 组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project
  3. 在显示的列表中,点击表 ID。系统会显示 BigQuery 表的详细信息,以及附加到该表的任何 Sensitive Data ProfileSensitive Data Profile (Project) 标记。

    如果表通过以下两种方式进行分析,则该表有两个标记:

    • 组织级或文件夹级扫描配置
    • 项目级扫描配置

如需了解如何通过 Data Catalog API 执行搜索,请参阅如何搜索数据资产

搜索查询示例

本部分提供了示例搜索查询,您可以在 Knowledge Catalog 中使用这些查询来查找组织或项目中具有特定标记值的数据。

您只能找到您有权访问的数据。数据访问权限通过 IAM 权限进行控制。如需了解详情,请参阅本页面的查看标记的 角色和权限。

您可以在控制台的 Knowledge Catalog 搜索 页面中输入这些查询。 Google Cloud

转到搜索

如需了解如何构成查询,请参阅 Data Catalog 搜索语法。如需了解如何 通过 Data Catalog API 执行搜索,请参阅如何搜索 数据 资产

查找使用新代码模板标记的所有表

tag:PROJECT_ID.TAG_TEMPLATE_ID

替换以下内容:

  • PROJECT_ID:包含标记 模板的项目的 ID。如果您在组织或文件夹级层分析了数据,请输入服务代理容器的项目 ID。
  • TAG_TEMPLATE_ID:如果扫描配置适用于 组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project

本页面的后续示例不包含项目 ID,因此您可能会获得与各种发现扫描配置关联的结果。如需将结果限制为特定扫描配置,请按照此示例所示将项目 ID 添加到查询中。

查找上次分析时间在给定日期之前的所有表

tag:TAG_TEMPLATE_ID.profile_last_generated<DATE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置适用于 组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project
  • DATE:格式为 YYYY-MM-DD 的日期,例如 2023-01-15

查找具有给定表级敏感度得分的所有表

tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置适用于 组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project
  • SENSITIVITY_SCOREHIGHMODERATELOW 之一。

如需了解详情,请参阅数据风险和敏感度 级别

查找具有给定数据风险级别的所有表

tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置适用于 组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project
  • DATA_RISK_LEVELHIGHMODERATELOW 之一。

如需了解详情,请参阅数据风险和敏感度 级别

查找包含给定预测 infoType 的所有表

tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置适用于 组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project
  • INFOTYPE:infoType,例如 PERSON_NAME

如需查看所有内置 infoType 的列表,请参阅 infoType 检测器 参考文档

如需了解详情,请参阅指标 参考文档中的预测 infoType

查找部分包含给定 infoType 的所有表

tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置适用于 组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project
  • INFOTYPE:infoType,例如 PERSON_NAME

如需查看所有内置 infoType 的列表,请参阅 infoType 检测器 参考文档

如需了解详情,请参阅指标 参考文档中的其他 infoType

查找包含具有给定预测 infoType 的给定列的所有表

tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置适用于 组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project
  • COLUMN_NAME:BigQuery 表中列的名称。
  • INFOTYPE:infoType,例如 PERSON_NAME

如需查看所有内置 infoType 的列表,请参阅 infoType 检测器 参考文档

如需了解详情,请参阅指标 参考文档中的预测 infoType

查找包含具有给定列级敏感度得分的给定列的所有表

tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE

替换以下内容:

  • TAG_TEMPLATE_ID:如果扫描配置适用于 组织或文件夹,则为 sensitive_data_profile;如果扫描配置适用于项目,则为 sensitive_data_profile_project
  • COLUMN_NAME:BigQuery 表中列的名称。
  • SENSITIVITY_SCOREHIGHMODERATELOW 之一。

如需了解详情,请参阅数据风险和敏感度 级别

标记值被截断

如果 BigQuery 表的列标题数据超过 10 MB,则 生成的标记可能会在 Column InsightsColumn Sensitivity 字段中显示 [TRUNCATED]。在这种情况下,我们建议您前往 Sensitive Data Protection 查看表数据分析和 关联的列数据分析。