關於資料產品

本文說明 Knowledge Catalog (原稱 Dataplex Universal Catalog) 中資料產品的架構和重要概念。

資料產品是經過整理的資料資產邏輯集合,經過正式封裝,確保可探索、可信任及可存取。資料產品的主要功能包括:

  • 將目錄資產整理成邏輯單元,解決特定業務問題,並加快取得洞察資訊的速度。
  • 發布時附上背景資訊,包括說明、文件和層面。
  • 透過合約建立信任關係,讓資料生產者能向資料消費者提供保證。
  • 為資料消費者提供自助式工作流程,以便評估資料產品並取得資料存取權。

基本概念

本節說明與資料產品相關的重要概念和術語。

資料產品

經過整理的資料資產邏輯分組,正式包裝後可供探索、信任及存取,以解決特定業務問題。

資產

指向實體資料資源的指標,例如 BigQuery 資料集、資料表或檢視區塊。資料產品包含一或多項資產。

存取權群組

存取權群組可簡化資料產品的權限管理作業。將易於使用的角色 (例如 ReaderAnalyst) 對應至基礎 Google 群組或服務帳戶。這項抽象化功能可讓資料產品擁有者在概念層級管理存取權,並協助資料產品消費者要求適當的存取層級。

  • 資料產品擁有者會設定存取權群組,並為這些群組指派特定資產權限。

  • 資料產品消費者會使用這些群組要求存取資料產品。

資料產品擁有者或資料產生者

負責建立及管理資料產品的個人或團隊。包括管理品質、存取權和說明文件。

資料產品消費者

使用資料產品產生洞察資訊的個人、團隊或 AI 代理。

合約

資料產品擁有者與消費者之間的協議。這份協議會定義資料的提供和使用方式 (例如更新時間表和品質標準),明確規範雙方的期望。

用途範例

假設資料科學家正在分析電子商務業務。他們的目標是找出各流量來源的平均訂單價值 (AOV),並查看使用者年齡與訂單大小之間是否有關聯。為此,他們需要合併多個資料表 (例如 order_detailsuser_trafficuser_demographics) 的資料。

傳統做法會造成摩擦。如要產生洞察資料,資料科學家必須先在機構龐大的資料環境中找出正確的資料表,然後聯絡每位資料擁有者、說明存取要求,並等待核准。

資料產品可讓資料擁有者將相關資產包裝成名為「電子商務業務資料」的單一產品,進而簡化這項體驗。這個套件包含下列項目:

  • 資產

    • BigQuery 資料表 order_detailsuser_traffic (內含歷史訂單資料和流量來源)
    • BigQuery 檢視區塊 user_demographics (提供使用者詳細資料,但排除 PII)
  • 存取權群組

    • 預先定義的 ReaderWriter 群組,可簡化存取權要求
  • 合約

    • 合約中定義資料更新頻率 (例如太平洋標準時間每週上午 8 點)
  • 背景資訊

    • 說明文件,內含範例查詢和其他詳細資料
    • 描述資料敏感度的其他中繼資料

資料科學家現在可以將這個資料產品視為單一邏輯單元。 這樣一來,他們就能放心地產生洞察資料,回答「各個流量來源的平均訂單價值是多少?」等問題,進而找出能帶來最高價值顧客的來源。

資料產品使用者流程

在 Knowledge Catalog 中,資料產品生命週期涉及兩個主要使用者歷程:一個是資料產品擁有者 (或生產者) 建立及管理資料的歷程,另一個是資料產品消費者探索及使用資料的歷程。

資料產品擁有者歷程

這個歷程的重點是封裝、保護及管理資料產品,確保資料產品值得信賴且容易存取。

  • 建立:定義資料產品並納入資產。這包括下列動作:

    • 設定專屬名稱、專案、區域和說明。
    • 新增 BigQuery 資料表、資料集或檢視區塊等資產。
    • 設定存取群組 (例如 AnalystReader),並將其對應至基礎 Google 群組或服務帳戶,簡化權限管理作業。
    • 為特定資產的存取權群組指派必要的 IAM 角色。
    • 新增合約 (系統層面),正式傳達雙方同意的資料重新整理頻率和門檻。

    詳情請參閱「建立資料產品」。

  • 管理:更新資料產品,確保可搜尋性。這包括下列動作:

    • 更新基本詳細資料、資產、權限、補充資訊 (中繼資料) 和 RTF 格式文件。
    • 授予消費者存取權,讓他們探索資料產品並要求存取權。

    詳情請參閱「管理資料產品」。

資料產品消費者歷程

本歷程的重點在於快速找到可信資料,並取得使用資料的必要權限。

  • 探索:針對特定業務問題尋找相關且可靠的資料。包括下列動作:

    • 使用Knowledge Catalog 搜尋功能,以關鍵字或自然語言尋找封裝資料產品。
    • 查看資料產品的總覽、資產、合約和其他方面,判斷是否適合使用。

    詳情請參閱「搜尋資料產品」。

  • 要求存取權:向資料產品擁有者要求資料存取權。

    詳情請參閱「要求存取資料產品」。

  • 用途:存取基礎資產以產生洞察。這項作業包括下列動作:

    • 獲得核准後,你就能存取產品和相關資產。舉例來說,如果資產是 BigQuery 資料表,您可以前往 BigQuery Studio 並直接查詢資料。

    • 如果應用程式和開發工作流程在Google Cloud外部運作,您可以使用外部中繼資料閘道公開資料產品。詳情請參閱「使用 Knowledge Catalog 遠端 MCP 伺服器」。

    詳情請參閱「使用資料產品」。

支援的素材資源

資料產品可由一或多項資料資產組成。系統支援下列資料資產:

  • BigQuery 資料集
  • BigQuery 資料表
  • BigQuery 檢視區塊
  • BigQuery 處理常式
  • BigQuery 模型
  • BigQuery 外部資料表
  • Gemini Enterprise Agent Platform 資料集
  • Gemini Enterprise Agent Platform 模型

限制

  • 位置:資料產品及其基礎資產必須位於相同Google Cloud 位置。
  • BigQuery 模型:資料產品中的 BigQuery 模型存取權,是透過套用至父項資料集 IAM 政策的 IAM 條件管理。共用 BigQuery 模型時,須遵守 IAM 條件的限制
  • 配額與限制:如需 API 使用頻率限制和容量配額的完整清單,請參閱「資料產品 API 要求配額」。

後續步驟