資料品質任務總覽

您可以使用 Knowledge Catalog 資料品質工作,定義並執行 BigQuery 和 Cloud Storage 中資料表的資料品質檢查。您也可以透過 Knowledge Catalog 資料品質工作,在 BigQuery 環境中套用一般資料控管措施。

建立 Knowledge Catalog 資料品質任務的時機

知識目錄資料品質工作可協助您執行下列操作:

  • 在資料生產管道中驗證資料。
  • 定期監控資料集品質是否符合預期。
  • 建立資料品質報告,以符合法規要求。

優點

  • 可自訂規格。您可以使用彈性極高的 YAML 語法,宣告資料品質規則。
  • 無伺服器導入方式。知識目錄不需要任何基礎架構設定。
  • 零複製和自動下推。YAML 檢查會轉換為 SQL,並下推至 BigQuery,因此不會複製資料。
  • 可排定的資料品質檢查。您可以透過 Knowledge Catalog 中的無伺服器排程器,排定資料品質檢查時間,也可以透過 Managed Airflow 等外部排程器使用 Dataplex API,整合管道。
  • 受管理體驗。Knowledge Catalog 會使用開放原始碼資料品質引擎 CloudDQ 執行資料品質檢查。不過,Knowledge Catalog 提供流暢的管理體驗,可執行資料品質檢查。

資料品質任務的運作方式

下圖顯示 Knowledge Catalog 資料品質工作的運作方式:

圖片

  • 使用者輸入內容
    • YAML 規格:一或多個 YAML 檔案的集合,根據規格語法定義資料品質規則。您將 YAML 檔案儲存在專案的 Cloud Storage 值區中。使用者可以同時執行多項規則,並將這些規則套用至不同的 BigQuery 資料表,包括不同資料集或專案中的資料表。 Google Cloud這項規格支援增量執行,僅用於驗證新資料。如要建立 YAML 規格,請參閱「建立規格檔案」。
    • BigQuery 結果資料表:使用者指定的資料表,用於儲存資料品質驗證結果。這個資料表所在的 Google Cloud 專案,可以與使用 Knowledge Catalog 資料品質工作的專案不同。
  • 要驗證的資料表
    • 在 YAML 規格中,您需要指定要根據哪些規則驗證哪些表格,這也稱為規則繫結。資料表可以是 BigQuery 原生資料表,也可以是 Cloud Storage 中的 BigQuery 外部資料表。您可以使用 YAML 規格,在知識目錄區域內或外部指定表格。
    • 在單次執行中驗證的 BigQuery 和 Cloud Storage 資料表可以屬於不同專案。
  • 知識目錄資料品質工作:知識目錄資料品質工作會使用預先建構及維護的 CloudDQ PySpark 二進位檔進行設定,並以 YAML 規格和 BigQuery 結果資料表做為輸入內容。與其他知識目錄工作類似,知識目錄資料品質工作會在無伺服器 Spark 環境中執行,將 YAML 規格轉換為 BigQuery 查詢,然後在規格檔案中定義的資料表上執行這些查詢。

定價

執行 Knowledge Catalog 資料品質工作時,系統會向您收取 BigQuery 和 Managed Service for Apache Spark (Batches) 的使用費用。

使用 Knowledge Catalog 整理資料,或使用 Knowledge Catalog 中的無伺服器排程器排定資料品質檢查時間,都不會產生費用。請參閱「Knowledge Catalog 定價」。

後續步驟