Knowledge Catalog 最佳做法

本文提供使用 Knowledge Catalog (舊稱 Dataplex Universal Catalog) 的相關指引和最佳做法。

為資料湖選擇專案

選取要代管資料湖的專案時,請考量下列因素:

  • 專案必須與要存放在資料湖中的資料,屬於同一個 VPC Service Controls 範圍

  • 湖泊服務帳戶需要 Cloud Storage bucket 或 BigQuery 資料集的管理員權限。知識目錄會在 BigQuery 中建立外部資料表,用於 Cloud Storage 中探索到的資料表。此外,Knowledge Catalog 也會提供 BigQuery 資料表的中繼資料,以及在 Cloud Storage bucket 中探索到的資料表,並將這些資料儲存在 Dataproc Metastore 服務中。Dataproc Metastore 位於資料湖泊專案中。

Cloud Storage 設定和限制

  • 區域:知識目錄支援部分Google Cloud 區域的單一區域和多區域值區。

  • 儲存空間級別:支援所有儲存空間級別的 Cloud Storage 儲存空間 (Standard、Nearline、Coldline、Archive)。存取或掃描 Nearline、Coldline 或 Archive 資料時,可能會產生額外的資料擷取費用。

  • Bucket ACL:知識目錄僅支援具有統一存取控制項的 Cloud Storage bucket。不支援精細的存取權控管機制。

  • 要求者付費:不支援啟用「要求者付費」功能的 Cloud Storage 值區。

安全性和權限指南

如要使用 Knowledge Catalog,請在受管理的水桶和資料集上,將 Knowledge Catalog 服務帳戶新增為管理服務帳戶。

分析師可透過 Knowledge Catalog 存取多個專案中的 Cloud Storage 值區和 BigQuery 資料集。如要啟用這項存取權,Knowledge Catalog 必須將具有管理控制項的 Knowledge Catalog 服務帳戶新增至這些專案。

如果是 Discovery,Knowledge Catalog 會將 Dataproc Metastore 服務帳戶新增至 Cloud Storage bucket。如果您有自己的 Dataproc Metastore 叢集,可以讓 Knowledge Catalog 湖泊使用您的 Dataproc Metastore 服務。建立湖泊時,您可以選擇這個選項。

如果您選擇將 Cloud Storage bucket 新增至具有精細存取權的資料湖,Knowledge Catalog 會透過資料湖提供該 bucket 的完整存取權,因為 Knowledge Catalog 權限會傳播至 bucket 中的所有物件。如需精細的存取權,建議您將 bucket 中的資料分割成多個 bucket。

後續步驟