本指南說明如何在 Cloud Data Fusion 中使用 Sensitive Data Protection。
Cloud Data Fusion 提供 Sensitive Data Protection 外掛程式,內含三種轉換作業,可篩選、遮蓋或解密機密資料:
PII 篩選器轉換功能可從輸入資料串流中篩選敏感記錄。
遮蓋轉換可讓您轉換機密資料,例如遮蓋或加密資料。
「解密」轉換可讓您解密先前使用「遮蓋」轉換加密的機密資料,
費用
在本文件中,您會使用下列 Google Cloud的計費元件:
如要根據預測用量估算費用,請使用 Pricing Calculator。
事前準備
在 Google Cloud 控制台的專案選擇器頁面中,選取或建立專案。
為專案啟用 Cloud Data Fusion API。
為專案啟用 DLP API (屬於 Sensitive Data Protection)。
授予 Sensitive Data Protection 權限
前往 Google Cloud 控制台的「IAM」頁面。
在權限資料表的「主體」欄中,選取下列其中一個服務帳戶:
如要取得執行階段資源的權限,請選取 Managed Service for Apache Spark 叢集使用的服務帳戶。預設值為 Compute Engine 服務帳戶,基於安全考量,不建議使用這個帳戶
在 Cloud Data Fusion 中使用 Wrangler 或預覽功能時 (非執行階段),如要取得資源權限,請選取符合下列格式的服務帳戶:
service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com。
按一下服務帳戶右側的鉛筆圖示。
按一下「新增其他角色」。
按一下隨即顯示的下拉式選單。
使用搜尋列搜尋並選取「DLP 管理員」。
按一下 [儲存]。確認「角色」欄中顯示「DLP 管理員」。
部署 Sensitive Data Protection 外掛程式
前往執行個體:
在 Google Cloud 控制台中,前往 Cloud Data Fusion 頁面。
如要在 Cloud Data Fusion Studio 中開啟執行個體,請依序按一下「Instances」和「View instance」。
在 Cloud Data Fusion 網頁 UI 中,按一下右上角的「中樞」。
點選「資料遺失防護」外掛程式。
按一下「部署」。
按一下「完成」。
按一下「建立管道」。
使用 PII 篩選器轉換
這項轉換會將敏感記錄與非敏感記錄分開。如果記錄符合您在 Sensitive Data Protection 範本中定義的條件,即視為敏感資料。舉例來說,建立範本時,您可以將機密資料定義為信用卡資訊或身分證字號。
在 Cloud Data Fusion 中開啟管道,然後依序點選「Studio」>「Transform」。
按一下「PII Filter」轉換。
將游標懸停在「PII Filter」節點上,然後點選「屬性」。
在「篩選依據」下方,選擇要篩選記錄或欄位。
為遵守 Sensitive Data Protection 限制,如果記錄超過 0.5 MB,Cloud Data Fusion 管道就會失敗。為避免這類失敗情況,請改用欄位篩選,而非記錄。
在「範本 ID」部分,輸入您建立的 Sensitive Data Protection 範本 ID。
在「錯誤處理」下方,定義管道遇到機密資料時的處理方式。選擇下列其中一個錯誤處理選項:
- 停止管道:遇到錯誤時立即停止管道。
- 略過記錄:略過導致錯誤的記錄。管道會繼續執行,且不會回報任何錯誤。
- 傳送至錯誤:將錯誤傳送至錯誤埠。管道會繼續執行。
按一下「X」X按鈕。
使用「遮蓋」轉換
這項轉換會找出輸入串流中的敏感記錄,並對這些記錄套用您定義的轉換。如果記錄符合所選的預設 Sensitive Data Protection 篩選器,或是您定義的自訂範本,即視為敏感資料。
在 Cloud Data Fusion 網頁 UI 的「Studio」頁面,點選並展開「轉換」選單。
按一下「Redact」Redact轉換。
將游標懸停在「Redact」節點上,然後點選「屬性」。
選擇要將轉換套用至預先定義的篩選器,還是自行建立篩選器。
這兩個選項無法同時使用。你可以使用預先定義的篩選器,也可以建立自訂範本。
預先定義的篩選器
如要對預先定義的篩選器套用轉換,請將「自訂範本」設為「否」,然後在「比對」下方定義規則:
按一下「套用」下方的下拉式選單,然後選擇轉換方式。 如要進一步瞭解可用的轉換,請參閱外掛程式「說明文件」分頁的「說明」部分。
開啟後,按一下下拉式選單並選擇類別,這是一組依類型分組的預先定義 Sensitive Data Protection 篩選器。如要查看提供的完整類別清單,以及這些類別包含的篩選器,請參閱外掛程式「Documentation」(說明文件) 分頁中的「DLP Filter Mapping」(資料遺失防護篩選器對應) 一節。
如要設定多項比對規則,請按一下「+」按鈕。
自訂範本
如要根據自訂範本套用轉換,請將「Custom Template」設為「Yes」。
返回 Cloud Data Fusion 網頁版 UI,在「遮蓋」屬性選單的「範本 ID」下方,輸入您建立的自訂範本 ID。
按一下「X」X按鈕。
使用「Decrypt」轉換
這項轉換會找出輸入串流中以 Sensitive Data Protection 加密的記錄,並套用解密程序。只有使用可逆演算法 (例如格式保留加密或確定性加密) 加密的記錄才能解密。
在 Cloud Data Fusion 網頁 UI 的「Studio」頁面,點選並展開「轉換」選單。
按一下「Decrypt」轉換。
將游標懸停在「Decrypt」節點上,然後點選「屬性」。
輸入用於設定 Redact 外掛程式的相同值,該外掛程式會加密這項資料。這個外掛程式的屬性與Redact外掛程式相同。
按一下「X」X按鈕。
後續步驟
- 請參閱這篇教學文章,瞭解如何遮蓋敏感的使用者資料。
- 進一步瞭解 Sensitive Data Protection。