通过发现和检查了解您的数据

本页介绍并比较了两种 Sensitive Data Protection 服务,它们 可帮助您了解数据并启用数据治理工作流: 发现服务检查 服务

敏感数据发现

发现服务会监控整个组织的数据。 此服务会持续运行,并自动发现、分类和分析数据。发现服务可帮助您了解所存储数据的位置和性质,包括您可能不知道的数据资源。未知数据(有时称为“影子数据”)通常不会接受与已知数据相同级别的数据治理和风险管理。

您可以在各种范围内配置发现服务。您可以为不同的数据子集设置不同的分析时间表。您还可以排除不需要分析的数据子集。

发现扫描输出:数据分析文件

发现扫描的输出是一组针对范围内每个数据资源的 data profiles。例如,对 BigQuery 或 Cloud SQL 数据进行发现扫描会在项目、表和列级别生成数据分析文件。

数据分析文件包含有关所分析资源的指标和数据洞见。它 包括数据分类(或 infoType)、敏感度级别、数据 风险级别、数据大小、数据形状以及描述数据性质及其 数据安全态势(数据的安全性)的其他元素。您可以使用数据分析文件来就如何保护数据做出明智的决策,例如,通过设置表的访问权限政策。

假设有一个名为 ccn 的 BigQuery 列,其中每行都包含一个唯一的信用卡号,并且没有 null 值。生成的列级数据分析文件将包含以下详细信息:

显示名称
Field ID ccn
Data risk High
Sensitivity High
Data type TYPE_STRING
Policy tags No
Free text score 0
Estimated uniqueness High
Estimated null proportion Very low
Last profile generated DATE_TIME
Predicted infoType CREDIT_CARD_NUMBER

此外,此列级分析文件是表级 分析文件的一部分,后者提供 数据位置、加密状态以及表是否 公开共享等数据洞见。在 Google Cloud 控制台中,您还可以查看 表的 Cloud Logging 条目,以及具有表角色的 IAM 主账号 。

一种表级数据分析,其中显示了有关表的指标和分析洞见,并允许您在日志记录、IAM 和知识目录中查看表。

如需查看数据分析文件中提供的指标和数据洞见的完整列表,请参阅指标 参考文档

何时使用发现服务

在规划数据风险管理方法时,我们建议您从发现服务开始。发现服务可帮助您全面了解 数据,并启用 提醒报告问题补救功能。

此外,发现服务还可以帮助您识别可能包含非结构化数据的资源。此类资源可能需要进行详尽的检查。非结构化数据由较高的自由文本 得分在 0 到 1 范围内的指定。

敏感数据检查

检查服务会对单个资源执行详尽的扫描,以查找敏感数据的每个实例。检查服务会为每个检测到的实例生成一个 发现结果

检查作业提供了一组丰富的 配置选项,可帮助您准确找到要检查的数据。例如,您可以启用抽样,将要检查的数据限制为特定数量的行(对于 BigQuery 数据)或特定文件类型(对于 Cloud Storage 数据)。您还可以指定数据创建或修改的特定时间范围。

与持续监控数据的发现服务不同,检查服务是一种按需操作。不过,您可以安排周期性检查作业,这些作业称为 作业触发器

检查扫描输出:发现结果

每个发现结果都包含详细信息,例如检测到的实例的位置、其 潜在 infoType,以及发现结果与 infoType 匹配的确定性(也称为 可能性)。根据您的设置,您还可以获取发现结果所涉及的实际字符串;在 Sensitive Data Protection 中,此字符串称为“引用”。

如需查看检查发现结果中包含的详细信息的完整列表,请参阅 Finding

何时使用检查服务

当您需要调查非结构化数据(例如用户创建的评论或评价)并识别个人身份信息 (PII) 的每个实例时,检查服务非常有用。如果发现扫描识别出任何包含非结构化数据的资源,我们建议您对这些资源运行检查扫描,以获取每个发现结果的详细信息。

何时不应使用检查服务

如果同时满足以下两个条件,则检查资源没有用处。 发现扫描可以帮助您确定是否需要进行检查扫描。

  • 资源中只有结构化数据。也就是说,没有自由格式的数据列,例如用户评论或评价。
  • 您已经知道存储在该资源中的 infoType。

例如,假设发现扫描的数据分析文件表明,某个 BigQuery 表没有包含非结构化数据的列,但有一列包含唯一的信用卡号。在这种情况下,检查表中的信用卡号没有用处。检查服务会为列中的每个项生成一个发现结果。如果您有 100 万行,并且每行包含 1 个信用卡号,则检查作业将为 CREDIT_CARD_NUMBER infoType 生成 100 万个发现结果。在此示例中,不需要进行检查,因为发现扫描已表明该列包含唯一的信用卡号。

数据驻留、处理和存储

发现服务和检查服务都支持数据驻留要求:

  • 发现服务会在数据所在的位置处理数据,并将生成的数据分析文件存储在与所分析数据相同的区域或多区域中。如需了解详情,请参阅数据驻留 注意事项
  • 在 Google Cloud 存储系统内检查数据时, 检查服务会在数据所在的同一区域中处理数据,并将检查作业存储在该区域中。通过混合作业或 content方法检查 数据时, 检查服务可让您指定应在何处处理您的 数据。如需了解详情,请参阅数据的 存储方式

比较摘要:发现服务和检查服务

发现服务 检查服务
福利
  • 持续了解组织、文件夹或项目中的数据。
  • 帮助识别包含敏感数据、高风险数据和非结构化数据的资源。如需查看数据洞见的完整列表,请参阅 指标参考文档
  • 帮助发现未知数据(或“影子数据”)。
  • 按需检查单个资源。
  • 识别检查的资源中的每个敏感数据实例。
费用
  • 运行费用估算:免费
  • 用量模式:每 GB US$0.03 或 3 TB 的价格,以较低者为准
  • 订阅模式(预留容量):每订阅单元 US$2,500

在用量模式下,10 TB 的费用约为每月 US$300。
  • 1 GB 以下(包含 1 GB):免费
  • 1 GB 到 50 TB:每 GB US$1.00
  • 50 TB 到 500 TB:每 GB US$0.75
  • 超过 500 TB:每 GB US$0.60

如果是 10 TB,费用大约为每次扫描 US$10,000。
支持的数据源 BigLake
BigQuery
Cloud Run 函数环境变量
Cloud Run 服务修订版本环境变量
Cloud SQL
Cloud Storage
Vertex AI
Amazon S3
Azure Blob Storage
BigQuery
Cloud Storage
Datastore
混合(任意来源)1
支持的作用域
  • 组织、文件夹、项目或数据资源 Google Cloud
  • AWS 连接器、账号或 S3 存储桶可用的所有受支持资产
  • Azure 连接器、订阅、 或 Azure Blob Storage 容器可用的所有受支持资产
单个 BigQuery 表、Cloud Storage 存储桶或 Datastore 种类。
内置检查模板
内置自定义 infoType
扫描输出 所有受支持数据的简要概览(数据分析文件)。 检查的资源中的敏感数据的具体发现结果。
将结果保存到 BigQuery
以标签形式发送到 Knowledge Catalog(已弃用
以切面形式发送到 Knowledge Catalog
将结果发布到 Security Command Center
将发现结果发布到 Google Security Operations 对于组织级和文件夹级发现
发布到 Pub/Sub
支持数据驻留

1 混合检查具有不同的 定价模式。如需了解详情,请参阅检查来自任意来源的数据

后续步骤