遮蓋機密資料

本教學課程說明如何使用 Cloud Data Fusion 外掛程式,透過 Cloud DLP 遮蓋機密資料。

情境

請參考下列情境,其中必須遮蓋部分私密的客戶資訊:

支援團隊會在支援單中記錄處理的每個支援案件詳細資料。支援單中的所有資訊都會匯入 CSV 檔案。支援技術人員不應記錄任何視為私密的客戶資訊,但有時會誤記。您發現 CSV 檔案中出現部分客戶的電話號碼。

您想檢查 CSV 檔案,並隱藏所有電話號碼。您將建立 Cloud Data Fusion 管道,並使用 Cloud DLP 外掛程式,遮蓋機密客戶資料。

在本教學課程中,您將建立可執行下列作業的管道:

  • # 字元遮蓋顧客電話號碼,藉此隱藏號碼。
  • 將遮蓋的機密資料和非機密資料儲存在 Cloud Storage bucket 中。

建立管道

建立管道,遮蓋私密顧客資料。您建構的管道會執行下列作業:

  • 使用 Cloud Storage 來源外掛程式讀取輸入資料。
  • 從 Hub 部署 Cloud DLP 外掛程式。
  • 使用 Cloud Storage 接收器外掛程式寫入輸出資料。

載入客戶資料

本教學課程使用公開 Cloud Storage 值區提供的輸入資料集 CallCenterRecords.csv

  1. 開啟 Cloud Data Fusion 執行個體,然後按一下 「選單」>「Studio」

  2. 在「來源」選單中,按一下「Cloud Storage」外掛程式。

    選取外掛程式。

  3. 在「Cloud Storage」節點上,按一下「Properties」

  4. 在「Reference name」(參照名稱) 欄位中,輸入名稱。

  5. 在「Path」(路徑) 欄位中輸入 gs://datafusion-sample-datasets/CallCenterRecords.csv

  6. 在「格式」欄位中,選取「CSV」。

  7. 在「輸出結構定義」中,刪除「offset」和「body」欄位。 按一下「新增」,然後輸入下列欄位:

    • 日期
    • 銀行
    • 狀態
    • 郵遞區號
    • 附註

    輸入來源資源。

  8. 按一下「驗證」檢查是否有錯誤。

  9. 點按 「Close」(關閉)

遮蓋機密資料

Cloud DLP Redact 外掛程式會識別輸入資料串流中的機密記錄,並對這些記錄套用您定義的轉換。如果資料記錄符合您選擇的預先定義 Cloud DLP 篩選器,或您定義的自訂範本,就會被視為機密資料。

在本教學課程中,您要遮蓋團隊中部分支援技術人員不慎記錄的客戶電話號碼。他們在支援單的「附註」部分輸入了私密資訊,這些資訊會顯示在 CSV 檔案的「附註」欄中。建立自訂 Cloud DLP 範本,然後在外掛程式的屬性選單中提供範本 ID。

部署 Cloud DLP 外掛程式

  1. 在 Cloud Data Fusion 執行個體中,按一下「Hub」(中樞)

  2. 按一下「Cloud DLP」外掛程式。

  3. 按一下 [Deploy] (部署)

  4. 按一下「完成」

  5. 按一下「關閉」,即可關閉 Cloud DLP 對話方塊。

  6. 按一下「關閉」即可退出 Hub。

建立自訂範本

  1. 前往 Google Cloud 控制台的 Cloud DLP 頁面。

    前往 Cloud DLP

  2. 在「建立」選單中,選擇「範本」圖片

  3. 在「範本 ID」欄位中,輸入範本的 ID。

  4. 按一下「繼續」

  5. 在「設定偵測」欄位中,按一下「管理 infoType」

  6. 在「內建」分頁中,使用篩選器搜尋「電話號碼」。

    篩選器。

  7. 選取「PHONE_NUMBER」PHONE_NUMBER

  8. 依序點選「完成」>「建立」。

進一步瞭解如何 建立 Cloud DLP 範本

套用 Cloud DLP 遮蓋轉換

  1. 前往 Cloud Data Fusion 的「Studio」頁面,然後按一下展開「Transform」選單。

  2. 按一下 Cloud DLP Redact外掛程式。

    按一下外掛程式,即可將其新增至管道。

  3. 從「Cloud Storage」節點拖曳連線箭頭至「Redact」節點。

    連接兩個節點。

  4. 將游標懸停在「Redact」(遮蓋) 節點上,然後按一下「Properties」(屬性)

    1. 將「自訂範本」設為 Yes

    2. 在「範本 ID」欄位中,輸入您建立的自訂範本範本 ID。

    3. 在「比對」欄位中,對「附註」內的「自訂範本」套用「遮蓋」

    4. 在「遮蓋字元」欄位中,輸入 #

      遮罩。

    5. 按一下「驗證」檢查是否有錯誤。

    6. 點按 「Close」(關閉)

儲存輸出資料

將管道的結果儲存至 Cloud Storage 檔案。

  1. 在「Studio」頁面中,按一下展開「Sink」選單。

  2. 按一下「Cloud Storage」

  3. 將連線箭頭從「Redact」節點拖曳至「Cloud Storage2」節點。

    將 Redact 節點連結至第二個 Cloud Storage 節點。

  4. 將游標懸停在「Cloud Storage2」節點上,然後按一下「Properties」(屬性)

    1. 在「Reference name」(參照名稱) 欄位中,輸入名稱。

    2. 在「路徑」欄位中,輸入要儲存管道結果的 Cloud Storage bucket 路徑。Cloud Data Fusion 會為您建立值區。請務必遵守值區命名規範

    3. 在「Format」(格式) 欄位中,選取「CSV」

    4. 按一下「驗證」,確保沒有錯誤。

    5. 點按 「Close」(關閉)

在預覽模式下執行管道

部署前,請先在預覽模式下執行管道。

  1. 依序點選「預覽」和「執行」

    執行管道。

    按一下「執行」會顯示管道狀態,一開始是「啟動中」,然後變成「停止」,最後變成「執行」

  2. 預覽執行完成後,在「Redact」(遮蓋) 節點上按一下「Preview Data」(預覽資料),即可並列比較輸入和輸出資料。確認電話號碼已以 # 字元遮蓋。

    確認電話號碼已遮蓋。

遮蓋其他資料類型

檢查預覽執行結果時,您發現「附註」資料欄中仍有電子郵件地址等機密資訊。您返回並編輯 Cloud DLP 範本,一併遮蓋電子郵件地址。

  1. 前往 Google Cloud 控制台的 Cloud DLP 頁面。

    開啟 Cloud DLP 頁面

  2. 在「設定」分頁中,選取範本。

  3. 按一下 [編輯]

  4. 按一下「管理 infoType」

  5. 在「內建」分頁中,使用篩選器搜尋「OR」和「電子郵件地址」。

    篩選器。

  6. 選取所有項目,然後按一下「完成」

  7. 按一下 [儲存]

  8. 再次在預覽模式下執行管道。 Cloud Data Fusion 會自動使用更新後的 Cloud DLP 範本。

  9. 確認電話號碼電子郵件地址都已使用 # 字元遮蓋。

    確認資料已遮蓋。

部署及執行管道

  1. 確認「預覽」模式未勾選。

  2. 按一下 [儲存]。按一下「儲存」後,系統會提示您為管道命名。然後按一下「確定」

  3. 按一下 [Deploy] (部署)

  4. 部署完成後,按一下「Run」(執行)。管道執行作業會在幾分鐘內完成。等待期間,您會發現管道的「Status」(狀態) 從「Provisioning」(佈建中) 變更為「Starting」(啟動中),然後變成「Running」(執行中),再從「Deprovisioning」(取消佈建中) 變更為「Succeeded」(成功)

查看結果

  1. 前往 Google Cloud 控制台的 Cloud Storage 頁面。

    前往 Cloud Storage

  2. 在「儲存空間瀏覽器」中,前往您在接收器 Cloud Storage 外掛程式屬性中指定的接收器 Cloud Storage 值區

  3. 在「連結網址」中,按一下連結即可下載含有結果的 CSV 檔案。 確認電話號碼和電子郵件地址已以 # 字元遮蓋。

    確認資料已遮蓋。