去識別化

Sensitive Data Protection 使用「資訊類型」(「infoType」) 定義其掃描的內容。infoType 是一種機密資料,如姓名、電子郵件地址、電話號碼、身分證號碼、信用卡號等等。

Sensitive Data Protection 定義的每個 infoType 都有對應的「偵測工具」。Sensitive Data Protection 使用掃描設定中的 infoType 偵測工具,來決定要檢查的內容,以及如何轉換發現事項。顯示或報告掃描結果時,也會使用 InfoType 名稱。

本主題將詳細說明 infoType 及 infoType 偵測工具,並提供如何使用 infoType 偵測工具利用 Sensitive Data Protection 掃描內容是否含有機密資料的相關指引。

指定 infoType 偵測工具

設定 Sensitive Data Protection 掃描內容時,請在掃描設定中加入要使用的 infoType 偵測工具。

舉例來說,以下 JSON 示範傳至 DLP API 的簡單掃描要求。請注意,PHONE_NUMBER 偵測工具是在 inspectConfig 中指定,用於指示 Sensitive Data Protection 掃描指定字串中的電話號碼。

POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}

{
  "item":{
    "value":"My phone number is (415) 555-0890"
  },
  "inspectConfig":{
    "includeQuote":true,
    "minLikelihood":"POSSIBLE",
    "infoTypes":{
      "name":"PHONE_NUMBER"
    }
  }
}

以上的要求會傳回以下內容:

{
  "result":{
    "findings":[
      {
        "quote":"(415) 555-0890",
        "infoType":{
          "name":"PHONE_NUMBER"
        },
        "likelihood":"VERY_LIKELY",
        "location":{
          "byteRange":{
            "start":"19",
            "end":"33"
          },
          "codepointRange":{
            "start":"19",
            "end":"33"
          }
        },
        "createTime":"2018-10-29T23:46:34.535Z"
      }
    ]
  }
}

請務必在掃描設定中指定 infoTypes。如未指定任何 infoType,Sensitive Data Protection 會使用預設的 infoType 清單。依掃描的內容量而定,掃描預設 infoType 可能非常耗時或昂貴。

要進一步瞭解如何使用 infoType 偵測工具掃描您的內容,請參閱有關檢查、遮蓋或去識別化的操作教學主題

infoType 偵測工具的種類

資訊類型 (或「infoType」) 偵測工具是 Sensitive Data Protection 用來尋找機密資料的機制。

Sensitive Data Protection 包括數種 infoType 偵測工具,分別摘要如下:

  • 內建 infoType 偵測工具內建於 Sensitive Data Protection,包括用於掃描特定國家/地區機密資料類型及全球適用資料類型的偵測工具。
  • 自訂 infoType 偵測工具是您自行建立的偵測工具。自訂 infoType 偵測工具分為三種:
    • 「一般自訂字典偵測工具」是 Sensitive Data Protection 用於比對的簡單字詞清單。如果您的清單包含多達數萬個字詞或詞組,請使用一般自訂字典偵測工具。如果您的字詞清單不會大幅變動,建議採用一般自訂字典偵測工具。
    • 「儲存的自訂字典偵測工具」是由 Sensitive Data Protection 使用儲存在 Cloud Storage 或 BigQuery 中的龐大字詞或詞組清單所產生。字詞或詞組清單龐大 (即高達數千萬個) 時,宜使用儲存的自訂字典偵測工具。
    • 「規則運算式 (regex)」可讓機密資料防護功能根據規則運算式模式偵測相符項目。

如要修正掃描結果,可以建立檢查規則

內建 InfoType 偵測工具

內建 infoType 偵測工具內建於機密資料保護服務中,包括用於掃描國家/地區特定機密資料類型的偵測工具,如法國的「Numéro d'Inscription au Répertoire (NIR)」 (FRANCE_NIR)、英國的駕照號碼 (UK_DRIVERS_LICENSE_NUMBER),以及美國社會安全號碼 (US_SOCIAL_SECURITY_NUMBER) 等。此外,也包括全球適用資料類型,如個人姓名 (PERSON_NAME)、電話號碼 (PHONE_NUMBER)、電子郵件地址 (EMAIL_ADDRESS) 和信用卡號 (CREDIT_CARD_NUMBER) 等。如要偵測與 infoType 相符的內容,機密資料保護服務會運用各種技術,包括模式比對、檢查碼、機器學習和內容分析等。

內建 infoType 偵測工具的清單會隨時更新。如需目前支援的內建 infoType 偵測工具的完整清單,請參閱 InfoType 偵測工具參考資料

您也可以呼叫 Sensitive Data Protection 的 infoTypes.list 方法,查看所有內建 infoType 偵測工具的完整清單。

自訂 infoType 偵測工具

自訂 infoType 偵測工具分為三種:

如要修正掃描結果,可以建立檢查規則

一般自訂字典偵測工具

請使用一般自訂字典偵測工具,來比對較小的 (最多數萬個) 字詞或詞組清單。一般自訂字典可用做自己唯一的偵測工具。

如果您要掃描的字詞或詞組清單不易使用規則運算式或內建偵測工具進行比對時,即適合使用自訂字典偵測工具。例如,假設您要掃描會議室,一般會使用指定名稱而非號碼來稱呼會議室,如州或地區名稱、地標、虛構角色等。那麼您可以建立包含這些會議室名稱的清單的一般自訂字典偵測工具。Sensitive Data Protection 服務會掃描您的內容,查看是否包含這些會議室名稱,在上下文中發現這些名稱時傳回相符項目。如要進一步瞭解 Sensitive Data Protection 如何比對字典字詞和詞組,請參閱建立一般自訂字典偵測工具一文的「字典比對細節」部分。

如要進一步詳加瞭解一般字典自訂 infoType 偵測工具的運作原理及應用範例,請參閱建立一般自訂字典偵測工具一文。

儲存的自訂字典偵測工具

當您要掃描的字詞或詞組不是只有幾個,或是字詞或詞組清單經常變動時,請使用儲存的自訂字典偵測工具。儲存的自訂字典偵測工具可以比對高達數千萬個字詞或詞組。

儲存的自訂字典偵測工具在本質上是非常大的自訂偵測工具,建立方式與規則運算式自訂偵測工具和一般自訂字典偵測工具不同。每一個儲存的自訂字典都有兩個元件:

  • 建立及定義的詞組清單。這個清單會存成 Cloud Storage 中的文字檔或存成 BigQuery 表格中的資料欄。
  • 由 Sensitive Data Protection 根據您的詞組清單產生的字典檔案。字典檔案儲存在 Cloud Storage 中,由來源詞組資料加上 Bloom 篩選器所組成,用於輔助搜尋和比對。這些檔案無法直接編輯。

建立字詞清單,然後使用 Sensitive Data Protection 產生自訂字典後,即可使用儲存的自訂字典偵測工具啟動或排程掃描,方式與其他 infoType 偵測工具類似。

如要進一步瞭解儲存的自訂字典偵測工具的運作原理及應用範例,請參閱建立儲存的自訂字典偵測工具一文。

規則運算式

規則運算式 (regex) 自訂 infoType 偵測工具方便您建立自己的 infoType 偵測工具,以讓機密資料保護功能根據規則運算式模式偵測相符項目。舉例來說,假設您的病歷號碼格式為 ###-#-#####,則可定義如下的規則運算式模式:

[1-9]{3}-[1-9]{1}-[1-9]{5}

Sensitive Data Protection 隨後會比對類似以下的項目:

123-4-56789

您也可以指定指派給每個自訂 infoType 相符項目的可能性。也就是說,當 Sensitive Data Protection 比對您指定的序列時,將會指派您指定的可能性。這項功能相當實用,因為如果自訂規則運算式定義的序列夠常見,很容易就會比對到其他隨機序列,您不會希望 Sensitive Data Protection 將每個比對結果都標示為 VERY_LIKELY。這麼做會降低掃描結果的可信度,並可能導致錯誤資訊去識別化。

如需進一步瞭解規則運算式自訂 infoType 偵測工具及其應用實例,請參閱建立自訂規則運算式偵測工具一文。