透過探索和檢查瞭解資料

本頁面將說明並比較兩種 Sensitive Data Protection 服務,協助您瞭解資料並啟用資料治理工作流程:探索服務檢查服務

機密資料探索

探索服務會監控貴機構的資料。這項服務會持續執行,自動探索、分類及剖析資料。探索功能可協助您瞭解所儲存資料的位置和性質,包括您可能不知道的資料資源。不明資料 (有時稱為影子資料) 通常不會經過與已知資料相同程度的資料治理和風險管理。

您可以在各種範圍設定探索功能。您可以為不同部分的資料設定不同的剖析時間表。您也可以排除不需要剖析的資料子集。

探索掃描輸出內容:資料剖析檔

探索掃描的輸出內容是一組資料設定檔,適用於範圍內的每個資料資源。舉例來說,掃描 BigQuery 或 Cloud SQL 資料時,系統會在專案、資料表和資料欄層級產生資料剖析檔。

資料剖析檔包含受剖析資源的指標和深入分析資訊。包括資料分類 (或 infoType)、機密程度、資料風險程度、資料大小、資料形狀,以及其他描述資料性質和資安態勢 (資料安全程度) 的元素。您可以運用資料設定檔,明智地決定如何保護資料,例如設定資料表的存取政策。

假設有個名為 ccn 的 BigQuery 資料欄,其中每個資料列都包含不重複的信用卡號,且沒有空值。產生的資料欄層級資料剖析檔會包含下列詳細資料:

顯示名稱
Field ID ccn
Data risk High
Sensitivity High
Data type TYPE_STRING
Policy tags No
Free text score 0
Estimated uniqueness High
Estimated null proportion Very low
Last profile generated DATE_TIME
Predicted infoType CREDIT_CARD_NUMBER

此外,這個資料欄層級的設定檔是資料表層級設定檔的一部分,可提供資料位置、加密狀態等洞察資訊,以及資料表是否公開共用。您也可以在 Google Cloud 控制台中,查看資料表的 Cloud Logging 項目,以及具有資料表角色的 IAM 主體。

資料表層級的資料剖析檔,顯示資料表的指標和深入分析資訊,並可讓您在 Logging、IAM 和 Knowledge Catalog 中查看資料表。

如需資料設定檔中可用的指標和洞察資料完整清單,請參閱「指標參考資料」。

何時使用探索功能

規劃資料風險管理方法時,建議您先進行探索。探索服務可協助您全面瞭解資料,並啟用快訊報表問題修正功能。

此外,探索服務可協助您找出可能含有非結構化資料的資源。這類資源可能需要詳盡檢查。非結構化資料的自由文字分數較高,分數範圍為 0 到 1。

檢查機密資料

檢查服務會徹底掃描單一資源,找出每個機密資料例項。檢查作業會針對每個偵測到的執行個體產生發現項目

檢查工作提供豐富的設定選項,協助您找出要檢查的資料。舉例來說,您可以開啟取樣功能,將要檢查的資料限制為特定列數 (適用於 BigQuery 資料) 或特定檔案類型 (適用於 Cloud Storage 資料)。您也可以指定資料的建立或修改時間範圍。

與持續監控資料的探索功能不同,檢查作業是隨選作業。不過,您可以排定週期性檢查工作,也就是工作觸發條件

檢查掃描輸出內容:發現結果

每個發現項目都包含詳細資料,例如偵測到的例項位置、可能的 infoType,以及發現項目與 infoType 相符的確定程度 (也稱為可能性)。視設定而定,您也可以取得與發現項目相關的實際字串;在 Sensitive Data Protection 中,這個字串稱為「引號」

如要查看檢查發現項目中包含的完整詳細資料清單,請參閱 Finding

使用檢查功能的時機

檢查功能適用於調查非結構化資料 (例如使用者建立的留言或評論),並找出每個個人識別資訊 (PII) 例項。如果探索掃描發現任何含有非結構化資料的資源,建議您對這些資源執行檢查掃描,取得每項發現項目 的詳細資料。

不適合使用檢查功能的情況

如果符合下列兩項條件,檢查資源就沒有意義。 探索掃描可協助您判斷是否需要檢查掃描。

  • 資源中只有結構化資料。也就是說,沒有任意形式的資料欄,例如使用者留言或評論。
  • 您已瞭解該資源中儲存的 infoType。

舉例來說,假設探索掃描作業的資料剖析檔指出,某個 BigQuery 資料表沒有包含非結構化資料的資料欄,但有一個資料欄包含不重複的信用卡號。在這種情況下,檢查資料表中的信用卡號碼並無用處。檢查作業會針對資料欄中的每個項目產生發現項目。如果您有 100 萬列,且每列都包含 1 個信用卡號碼,檢查工作就會產生 100 萬個 CREDIT_CARD_NUMBER infoType 發現項目。在本例中,由於探索掃描已指出資料欄含有不重複的信用卡號碼,因此不需要檢查。

資料落地、處理和儲存

探索和檢查功能都支援資料落地規定:

  • 探索服務會在資料所在位置處理資料,並將產生的資料剖析檔儲存在與剖析資料相同的區域或多區域。詳情請參閱「資料落地注意事項」。
  • 檢查 Google Cloud 儲存系統中的資料時,檢查服務會在資料所在的區域處理資料,並將檢查工作儲存在該區域。透過混合式工作或 content 方法檢查資料時,檢查服務可讓您指定處理資料的位置。詳情請參閱資料儲存方式

比較摘要:探索和檢查服務

探索 檢查
優點
  • 持續掌握機構、資料夾或專案的狀況。
  • 協助找出含有機密、高風險和非結構化資料的資源。如需洞察資料的完整清單,請參閱「指標參考資料」。
  • 協助找出不明資料 (或影子資料)。
  • 隨選檢查單一資源。
  • 識別受檢查資源中的每個機密資料執行個體。
費用
  • 執行費用預估:免費
  • 用量模式:每 GB$0.03 美元或 3 TB 的價格,以較低者為準
  • 訂閱模式 (預留容量):每個訂閱單元$2,500 美元

如果您採取用量模式且當月用量為 10 TB,費用約為$300 美元。
  • 最多 1 GB:免費
  • 1 GB 至 50 TB:每 GB$1.00 美元
  • 50 TB 至 500 TB:每 GB US$0.75
  • 超過 500 TB:每 GB$0.60 美元

每次掃描 10 TB 資料的費用約為$10,000 美元。
支援的資料來源 BigLake
BigQuery
Cloud Run 函式環境變數
Cloud Run 服務修訂版本環境變數
Cloud SQL
Cloud Storage
Vertex AI
Amazon S3
Azure Blob 儲存體
BigQuery
Cloud Storage
Datastore
混合式 (任何來源)1
支援的範圍
  • Google Cloud 機構、資料夾、專案或資料資源
  • AWS 連接器、帳戶或 S3 bucket 可用的所有支援資產
  • Azure 連接器、訂閱項目或 Azure Blob 儲存體容器可用的所有支援資產
單一 BigQuery 資料表、Cloud Storage bucket 或 Datastore 種類。
內建檢查範本
內建自訂 infoType
掃描輸出 所有支援資料的概要總覽 (資料剖析檔)。 受檢查資源中機密資料的具體發現項目。
將結果儲存至 BigQuery
以標記形式傳送至 Knowledge Catalog (已淘汰)
傳送至 Knowledge Catalog 做為切面
將結果發布至 Security Command Center
將發現項目發布至 Google Security Operations 適用於機構層級和資料夾層級的探索
發布至 Pub/Sub
資料落地支援

1 混合式檢查的定價模式不同。詳情請參閱「檢查任意來源的資料 」一文。

後續步驟