本文說明 Dataplex Universal Catalog 中資料產品的架構和重要概念。
資料產品是經過整理的邏輯資料資產集合,正式封裝後可確保資料可供探索、信任及存取。資料產品的主要功能包括:
- 將目錄資產整理成邏輯單元,解決特定業務問題,並加快取得洞察資料的速度。
- 發布時請附上說明、文件和相關層面等背景資訊。
- 透過合約建立信任關係,讓資料生產者能向資料消費者提供保證。
- 為資料消費者提供自助式工作流程,以便評估資料產品並取得資料存取權。
基本概念
本節說明與資料產品相關的重要概念和術語。
資料產品
經過整理的資料資產邏輯分組,正式封裝後可供探索、信任及存取,用於解決特定業務問題。
資產
指向實體資料資源的指標,例如 BigQuery 資料集、資料表或檢視區塊。資料產品包含一或多項資產。
存取權群組
Google 群組由資料產品擁有者設定,資料產品消費者則可透過群組要求存取權。資產權限會指派給這些存取權群組。
存取權群組可簡化資料產品的權限管理作業。這些別名可做為基礎 IAM 群組的易記別名 (例如 Reader 或 Analyst)。資料產品擁有者可藉此指派高層級的權限,消費者也能要求適當的存取層級。
資料產品擁有者或資料生產者
負責建立及管理資料產品的個人或團隊。包括管理品質、存取權和說明文件。
資料產品消費者
使用資料產品產生洞察資訊的個人、團隊或 AI 代理。
合約
資料產品擁有者與消費者之間的協議。這份協議會定義資料的提供和使用方式 (例如更新時間表和品質標準),明確規範雙方應遵守的條件。
用途範例
假設資料科學家正在分析電子商務業務。他們的目標是找出各流量來源的平均訂單價值 (AOV),並查看使用者年齡與訂單大小之間是否有關聯。為此,他們需要合併多個資料表 (例如 order_details、user_traffic 和 user_demographic) 的資料。
在傳統設定中,這個程序會造成摩擦。如要產生洞察資料,資料科學家必須先在機構龐大的資料環境中找出正確的資料表,然後聯絡每位資料擁有者、說明存取要求,並等待核准。
資料產品可讓資料擁有者將相關資產封裝成名為「電子商務業務資料」的單一產品,進而簡化這項體驗。這個套件包含下列項目:
資產
- BigQuery 資料表
order_details和user_traffic(內含歷史訂單資料和流量來源) - BigQuery 檢視區塊
user_demographics(提供使用者詳細資料,但排除 PII)
- BigQuery 資料表
存取權群組
- 預先定義的
Reader和Writer群組,可簡化存取要求
- 預先定義的
合約
- 定義資料更新頻率的合約 (例如太平洋標準時間每週上午 8 點)
背景資訊
- 說明文件,內含查詢範例和其他詳細資料
- 描述資料敏感度的其他中繼資料
資料科學家現在可以將這個資料產品視為單一邏輯單元。 這樣一來,他們就能放心地產生洞察資料,回答「各個流量來源的平均訂單價值是多少?」等問題,進而找出能帶來最高價值顧客的來源。
資料產品使用者流程
Dataplex Universal Catalog 中的資料產品生命週期包含兩個主要使用者歷程:一個是資料產品擁有者 (或生產者) 建立及管理資料的歷程,另一個是資料產品消費者探索及使用資料的歷程。
資料產品擁有者歷程
這個歷程的重點是封裝、保護及管理資料產品,確保資料產品值得信賴且可供存取。
建立:定義資料產品並納入資產。這包括下列動作:
- 設定專屬名稱、專案、區域和說明。
- 新增資產,例如 BigQuery 資料表、資料集或檢視區塊。
- 設定存取權群組 (例如
Analyst或Reader),並將這些群組對應至基礎 Google 群組,簡化權限管理作業。 - 為特定資產的這些存取權群組指派必要的 IAM 角色。
- 新增合約 (系統層面),正式傳達雙方同意的資料重新整理頻率和門檻。
詳情請參閱「建立資料產品」。
管理:更新資料產品,確保可探索性。這包括下列動作:
- 更新基本詳細資料、資產、權限、補充資訊 (中繼資料) 和 RTF 文件。
- 授予消費者存取權,讓他們發掘資料產品並要求存取權。
詳情請參閱「管理資料產品」。
資料產品消費者歷程
這項歷程的重點在於快速找到可信的資料,並取得使用資料的必要權限。
發掘:針對特定業務問題尋找相關且可信的資料。這包括下列動作:
- 使用Dataplex Universal Catalog 搜尋,以關鍵字或自然語言尋找封裝資料產品。
- 查看資料產品的總覽、資產、合約和其他方面,判斷是否適合使用。
詳情請參閱「搜尋資料產品」。
要求存取權:向資料產品擁有者要求資料存取權。
詳情請參閱「要求存取資料產品」。
用途:存取基礎資產以產生洞察資料。這包括下列動作:
- 獲得核准後,你就能存取產品和相關資產。舉例來說,如果資產是 BigQuery 資料表,您可以前往 BigQuery Studio 並直接查詢資料。
詳情請參閱「使用資料產品」。
支援的素材資源
資料產品可由一或多個資料資產組成。在預覽版中,系統支援下列資料資產:
- BigQuery 資料集
- BigQuery 資料表
- BigQuery 檢視區塊
限制
- 資料產品及其基礎資產必須位於相同的Google Cloud 位置。
- 資料產品最多可包含 10 項資產。
- 每個專案最多可建立 50 個資料產品。
- 預先發布版不支援整合要求核准工作流程。不過,資料產品消費者可以觸發電子郵件通知給資料產品擁有者,要求存取權。
後續步驟
- 瞭解如何建立資料產品。
- 進一步瞭解如何管理資料產品。
- 瞭解如何搜尋資料產品。
- 瞭解如何要求資料產品的存取權。