本教程介绍了如何使用适用于 Cloud DLP 的 Cloud Data Fusion 插件 遮盖敏感数据。
场景
考虑以下使用场景,其中的某些敏感客户信息必须遮盖:
您的支持团队会在支持服务工单中记录他们处理的每个支持请求的详细信息。支持服务工单中的所有信息都会被拉取到 CSV 文件中。支持技术人员不应记录任何被视为敏感信息的客户信息,但有时他们会错误地记录这些信息。您会发现 CSV 文件中显示了一些客户的电话号码。
您想查看 CSV 文件并隐藏所有电话号码。您可以使用 Cloud DLP 插件创建一个 Cloud Data Fusion 流水线,以遮盖敏感客户数据。
在本教程中,您将创建一个执行以下操作的流水线:
- 使用
#字符遮盖客户手机号码。 - 将经过遮盖的敏感数据和非敏感数据存储在 Cloud Storage 存储桶中。
目标
- 将 Cloud Data Fusion 连接到 Cloud Storage 来源。
- 部署 Cloud DLP 插件。
- 创建自定义 Cloud DLP 模板。
- 使用遮盖转换插件来遮盖敏感客户数据。
- 将输出数据写入 Cloud Storage。
费用
在本文档中,您将使用的以下收费组件: Google Cloud
您可使用 价格计算器 根据您的预计使用情况来估算费用。
准备工作
- 登录您的 Google Cloud 账号。如果您是新手 Google Cloud, 请创建一个账号来评估我们的产品在 实际场景中的表现。新客户还可获享 $300 赠金,用于 运行、测试和部署工作负载。
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
启用 Cloud Data Fusion、BigQuery、Cloud Storage 和 Dataproc API。
启用 API 所需的角色
如需启用 API,您需要拥有 Service Usage Admin IAM 角色 (
roles/serviceusage.serviceUsageAdmin),该角色包含serviceusage.services.enable权限。了解如何授予 角色。- 创建 Cloud Data Fusion 实例。
获取 Cloud DLP 权限
在 Google Cloud 控制台中,前往 IAM 页面。
在权限表的主账号 列中,找到与
service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com格式匹配的服务 账号。
点击 edit 修改。
点击添加其他角色 。
使用搜索栏进行搜索,然后选择 DLP 管理员 。
点击保存。
检查 DLP 管理员是否显示在角色列中。
导航到 Cloud Data Fusion 界面
使用 Cloud Data Fusion 时,您将同时使用 Google Cloud 控制台 和单独的 Cloud Data Fusion 界面。在 Google Cloud 控制台中,您 可以创建 Google Cloud 控制台项目,以及创建和删除 Cloud Data Fusion 实例。在 Cloud Data Fusion 界面中,您可以通过 各种页面(例如 Studio 或 Wrangler)来使用 Cloud Data Fusion 功能。
在 Google Cloud 控制台中,打开 实例 页面。
在实例的操作列中,点击查看实例链接。Cloud Data Fusion 界面将在新的浏览器标签页中打开。
创建流水线
创建流水线以遮盖敏感客户数据。您构建的流水线将执行以下操作:
- 使用 Cloud Storage 源插件读取输入数据。
- 从 Hub 部署 Cloud DLP 插件。
- 使用 Cloud Storage 接收器插件写入输出数据。
加载客户数据
本教程使用在公开提供的 Cloud Storage 存储分区中提供的输入数据集 CallCenterRecords.csv。
打开 Cloud Data Fusion 实例,然后依次点击 menu 菜单 > Studio。
在来源 菜单中,点击 Cloud Storage 插件。

在 Cloud Storage 节点上,点击属性 。
在参考名称 字段中,输入名称。
在路径 字段中,输入
gs://datafusion-sample-datasets/CallCenterRecords.csv。在格式 字段中,选择
CSV。对于输出架构,删除offset和body字段。 点击 添加 ,然后输入以下字段:
- 日期
- 银行
- 州
- Zip
- 备注

点击验证 以检查是否存在错误。
点击 关闭。
隐去敏感数据
Cloud DLP 隐去插件可识别数据输入流中的敏感记录,并将您定义的转换应用于这些记录。与您选择的预定义 Cloud DLP 过滤条件或您定义的自定义模板匹配的数据记录,被视为敏感记录。
在本教程中,您希望隐去您团队中的一些支持技术人员意外记录的客户手机号码。他们在支持服务工单的备注 部分(在 CSV 文件中显示为备注 列)中输入了敏感信息。创建自定义 Cloud DLP 模板,然后在插件的属性菜单中提供模板 ID。
部署 Cloud DLP 插件
在 Cloud Data Fusion 实例中,点击 Hub 。
点击 Cloud DLP 插件。
点击部署 。
点击完成 。
点击 关闭 以退出 Cloud DLP 对话框。
点击 关闭 以退出 Hub。
创建自定义模板
在 Google Cloud 控制台中,转到 Cloud DLP 页面。
从创建 菜单中,选择模板。

在模板 ID 字段中,输入模板的 ID。
点击继续 。
在配置检测 字段中,点击管理信息类型 。
在内置 标签页中,使用过滤条件搜索“手机号码”。

选择PHONE_NUMBER 。
依次点击完成 > 创建。
详细了解如何创建 Cloud DLP 模板。
应用 Cloud DLP 隐去转换
进入 Cloud Data Fusion Studio 页面,然后点击以展开转换 菜单。
点击 Cloud DLP Redact 插件。

将连接箭头从 Cloud Storage 节点拖动到隐去 节点。

将鼠标指针放在隐去 节点上,然后点击属性 。
将自定义模板 设置为
Yes。在模板 ID 字段中,输入您创建的自定义模板的 模板 ID。
在匹配 字段中,对备注 中的自定义模板 应用遮盖 。
在遮盖字符 字段中,输入
#。
点击验证 以检查是否存在错误。
点击 关闭。
存储输出数据
将流水线的结果存储在 Cloud Storage 文件中。
在 Studio 页面中,点击以展开接收器 菜单。
点击 Cloud Storage 。
将连接箭头从隐去 节点拖动到 Cloud Storage2 节点。

将鼠标指针放在 Cloud Storage2 节点上,然后点击属性 。
在参考名称 字段中,输入名称。
在路径 字段中,输入用于存储流水线结果的 Cloud Storage 存储桶的路径。Cloud Data Fusion 会为您创建存储桶。请务必遵循 存储桶命名准则。
在格式 字段中,选择 CSV 。
点击验证 以确保没有错误。
点击 关闭。
在预览模式下运行流水线
在部署流水线之前,请以预览模式运行流水线。
点击预览 ,然后点击运行 。

点击运行 之后,系统会显示流水线状态,从 正在启动 开始,依次转换为停止 、运行 。
预览运行完成后,在隐去 节点上,点击预览数据 以查看输入和输出数据的对照比较。检查是否已使用
#字符遮盖手机号码。
遮盖其他数据类型
在检查预览运行结果时,您发现备注列中仍然显示敏感信息:电子邮件地址。您返回修改 Cloud DLP 模板以遮盖电子邮件地址。
在 Google Cloud 控制台中,转到 Cloud DLP 页面。
在配置 标签页中,选择您的模板。
点击修改 。
点击管理信息类型。
在内置 标签页中,使用过滤条件搜索“或”“电子邮件地址”。

全选然后点击完成 。
点击保存。
再次在预览模式下运行流水线。 Cloud Data Fusion 将自动使用更新后的 Cloud DLP 模板。
检查是否已使用
#字符遮盖手机号码和电子邮件地址。
部署并运行流水线
确保未选中预览模式。
点击保存。点击保存之后,系统会提示您为流水线命名。然后点击确定 。
点击部署 。
部署完成后,点击运行。运行流水线可能需要几分钟时间。在等待期间,您可以观察到流水线的状态从正在预配依次转换为正在启动、正在运行、正在取消预配、成功。
查看结果
清理
为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请删除包含这些资源的项目,或者保留项目但删除各个资源。
删除 Cloud Data Fusion 实例
请按照以下说明删除 Cloud Data Fusion 实例。
删除项目
为了避免产生费用,最简单的方法是删除您为本教程创建的项目。
要删除项目,请执行以下操作:
- 在 Google Cloud 控制台中,前往 管理资源 页面。
- 在项目列表中,选择要删除的项目,然后点击删除。
- 在对话框中输入项目 ID,然后点击 关闭以删除项目。
后续步骤
- 详细了解 Cloud Data Fusion。
- 了解如何使用 Cloud Data Fusion 插件,该插件提供了遮盖转换插件和过滤条件 PII 转换插件。
