關於資料剖析

Knowledge Catalog (舊稱 Dataplex Universal Catalog) 會自動剖析 BigQuery 和 Iceberg REST Catalog 資料表,方便您瞭解及分析資料。

剖析就像是取得資料的詳細健康報告,這項功能會提供重要統計資料,例如常見值、資料分布情形,以及缺少多少項目 (空值計數)。這項資訊可加快分析速度。

資料剖析功能會自動偵測私密資訊,並讓您設定存取控管政策。這項功能會建議資料品質檢查規則,確保資料維持可靠。

概念模型

您可以建立資料剖析掃描作業,透過 Knowledge Catalog 深入瞭解資料剖析。資料剖析掃描作業是一種 Knowledge Catalog 資料掃描作業,可分析 BigQuery 或 Iceberg REST Catalog 資料表,產生統計洞察資料。

下圖說明 Knowledge Catalog 如何掃描資料,並回報統計特徵。

資料剖析掃描作業會分析資料表資料,並回報統計特徵。

資料剖析掃描作業會與一個 BigQuery 資料表或 Iceberg REST 目錄資料表建立關聯,並掃描該資料表以產生資料剖析檔結果。資料剖析掃描作業支援多種設定選項

設定選項

本節說明執行資料剖析掃描時可用的設定選項。

剖析模式

您可以選擇下列其中一種剖析模式:

  • 標準:這是預設模式。系統會根據您指定的取樣和篩選器掃描資料,提供全面且可自訂的設定檔。標準模式適合詳細分析及長期監控資料特徵。

  • 輕量型 (預覽版):這個模式提供低延遲的個人資料掃描,可在幾秒內傳回結果。此模式經過速度和成本效益最佳化,可支援下列用途:

    • 根據即時資料特徵,為 AI 代理回覆內容建立基準
    • 以具成本效益的方式大規模預先產生剖析資料,供全球資料探索作業使用
    • 在互動式資料探索期間提供快速健康報告

    輕量模式有下列限制:

    • 與標準剖析模式不同,您無法在輕量掃描中修改範圍、篩選器或取樣大小。
    • 不支援 BigQuery 檢視表和外部資料表。

排程選項

您可以排定資料剖析掃描的執行頻率,也可以視需要執行掃描。如果掃描工作執行時間超出預期,可以取消工作

執行身分

根據預設,Knowledge Catalog 會使用集中式服務代理程式 (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) 執行資料剖析掃描作業。

您也可以指定自訂服務帳戶 (自備服務帳戶) 或使用自己的使用者憑證 (EUC),覆寫這個預設執行身分。這麼做有幾項優點:

  • 最小權限原則:僅將特定資料剖析工作所需的確切 IAM 權限授予專屬服務帳戶,盡量減少過度佈建的存取權。
  • 精細的存取控管:將權限範圍限定在特定資源,以便與 BigQuery 中的資料列層級和資料欄層級存取政策整合。
  • 提升稽核能力:為特定掃描作業指派自訂服務帳戶或使用者憑證,讓稽核記錄中的活動追蹤和記錄更加清楚。
  • 帳單整合:使用自訂執行身分時,處理和儲存費用會直接集中在 BigQuery 下方 (略過 Knowledge Catalog Premium SKU)。這樣一來,您就能享有 BigQuery 企業折扣和運算單元使用承諾。

如需如何設定自訂執行身分的操作說明,請參閱「設定執行身分」。

範圍

如果是「標準」剖析掃描,您可以指定要掃描的資料範圍:

  • 完整資料表:資料剖析檔掃描會掃描整個資料表。 系統會先對整個資料表套用抽樣、資料列篩選器和資料欄篩選器, 再計算剖析統計資料。

  • 增量:系統會在資料剖析掃描中掃描您指定的增量資料。請在資料表中指定 DateTimestamp 資料欄做為增量。通常這是資料表分割依據的資料欄。系統會先對增量資料套用取樣、資料列篩選器和資料欄篩選器,再計算剖析統計資料。

篩選資料

如果是標準剖析掃描,您可以使用資料列篩選器和資料欄篩選器,篩選要剖析的資料。使用篩選器有助於縮短執行時間、降低成本,並排除私密和不必要的資料。輕量剖析掃描不支援資料欄篩選器和資料列篩選器。

  • 資料列篩選器:資料列篩選器可讓您著重於特定時間範圍或特定區隔 (例如區域) 的資料。舉例來說,您可以篩除特定日期之前的時間戳記資料。

  • 資料欄篩選器:資料欄篩選器可讓您在表格中納入和排除特定資料欄,以執行資料剖析掃描。

範例資料

如果是標準剖析掃描,您可以指定要從資料中取樣的記錄百分比,以執行資料剖析掃描。對較小的資料樣本建立資料設定檔掃描,可縮短執行時間,並降低查詢整個資料集的成本。

多項資料剖析掃描作業

您可以使用 Google Cloud 控制台,一次建立多項資料剖析掃描作業。您可以從一個資料集選取最多 100 個資料表,並為每個資料集建立資料剖析檔掃描。詳情請參閱「建立多項資料剖析掃描作業」。

將掃描結果匯出至 BigQuery 資料表

您可以將資料剖析掃描結果匯出至 BigQuery 資料表,以供進一步分析。如要自訂報表,您可以將 BigQuery 資料表資料連結至 Looker 資訊主頁。您可以針對多項掃描作業使用相同的結果資料表,藉此建立匯總報表。

資料剖析結果

資料剖析結果包含下列值:

資料欄類型 資料剖析結果
數值資料欄
  • 空值百分比。
  • 不重複 (相異) 值的近似百分比。
  • 資料欄中最常見的 10 個值。如果資料欄中的唯一值數目少於 10 個 (不含空值),則顯示的值可能少於 10 個。系統會顯示每個最常見值在目前掃描中出現的百分比。
  • 平均值、標準差、最小值、近似下四分位數、近似中位數、近似上四分位數和最大值。
字串資料欄
  • 空值百分比。
  • 不重複 (相異) 值的近似百分比。
  • 欄中最常見的 10 個值 (如果欄中的唯一值少於 10 個,則會顯示少於 10 個值)。
  • 字串的平均長度、最短長度和最長長度。
其他非巢狀資料欄 (日期、時間、時間戳記、二進位等)
  • 空值百分比。
  • 不重複 (相異) 值的近似百分比。
  • 欄中最常見的 10 個值,如果欄中的唯一值數量少於 10 個,則會顯示少於 10 個值。
所有其他巢狀或複雜資料類型資料欄 (例如記錄、陣列、JSON),或任何具有重複模式的資料欄。
  • 空值百分比。

結果會顯示每個工作中掃描的記錄數。

回報與監控

您可以透過下列報表和方法,監控及分析資料剖析結果:

  • 在 BigQuery 和 Knowledge Catalog 頁面中,發布來源資料表的報表

    如果您將資料剖析掃描作業設定為將結果發布至 BigQuery 和 Knowledge Catalog,即可在 BigQuery 和 Knowledge Catalog 中,透過來源資料表的「資料剖析檔」分頁查看最新的資料剖析掃描結果。任何專案都能存取這些結果。

    已發布的報表。

  • 歷來資料,按工作劃分的報表

    在 Knowledge Catalog 和 BigQuery 的「資料剖析與品質」>「資料剖析掃描」頁面中,您可以查看最新和歷來工作的詳細報表,包括資料欄層級的資料剖析檔資訊和使用的設定。

    每個工作的歷來資料報表。

  • 「分析」分頁

    在 Knowledge Catalog 和 BigQuery 的「資料剖析與品質」>「資料剖析掃描」頁面中,您可以使用「分析」分頁,查看多個資料剖析檔工作期間內,資料欄特定統計資料的趨勢。舉例來說,如果您有增量掃描,可以查看一段時間內值的平均趨勢。

    「分析」分頁。

  • 建立專屬資訊主頁或數據分析

    如果您已設定資料剖析掃描作業,將結果匯出至 BigQuery 資料表,則可以使用數據分析等工具建構自己的資訊主頁。

限制

  • 您只能對 BigQuery 和 Iceberg REST 目錄資料表執行資料剖析掃描作業。
  • 資料剖析作業支援所有資料欄類型 (BIGNUMERIC 除外) 的 BigQuery 資料表。如果為含有 BIGNUMERIC 資料欄的資料表建立掃描作業,系統會發生驗證錯誤,且無法順利建立作業。

定價

如要進一步瞭解定價,請參閱「Knowledge Catalog 定價」。

後續步驟