部署企業資料管理和分析平台

Last reviewed 2025-04-04 UTC

企業資料管理和數據分析平台提供安全區域,讓您在維持安全控管的同時,儲存、分析及操控私密資訊。您可以運用企業資料網格架構,在 Google Cloud 上部署資料管理和數據分析平台。這項架構的設計宗旨是可在混合式環境中運作,其中的 Google Cloud 元件會與現有的地端部署元件和作業程序互動。

企業資料網格架構包含下列項目:

  • GitHub 存放區,內含一組 Terraform 設定、指令碼和程式碼,用於建構下列項目:
    • 治理專案:可讓您使用 Google 實作的 Cloud Data Management Capabilities (CDMS) Key Controls Framework
    • 支援互動式和生產工作流程的資料平台範例。
    • 資料平台中的生產端環境,支援多個資料網域。資料網域是資料元素的邏輯分組。
    • 資料平台內的消費者環境,支援多個消費者專案。
    • 這項資料移轉服務使用 Workload Identity Federation 和 Tink 加密程式庫,協助您以安全的方式將資料移轉至 Google Cloud 。
    • 資料網域範例,其中包含擷取、非機密和機密專案。
    • 舉例來說,資料存取系統可讓資料消費者要求存取資料集,並讓資料擁有者授予這些資料集的存取權。範例中也包含工作流程管理工具,可相應變更這些資料集的 IAM 權限。
  • 這份指南說明您用來實作這項架構的架構、設計、安全控管和作業程序 (即本文件)。

企業資料網格架構的設計與企業基礎藍圖相容。企業基礎藍圖提供此架構所依賴的許多基礎層級服務,例如 VPC 網路和記錄。如果您的環境提供Google Cloud 必要功能,即可部署此架構,不必部署企業基礎藍圖。

本文適用於雲端架構師、資料科學家、資料工程師和安全架構師,協助他們使用架構在 Google Cloud上建構及部署全方位的資料服務。本文假設您熟悉資料網格、 Google Cloud資料服務和 CDMC 架構實作概念。 Google Cloud

架構

企業資料網格架構採用分層方法,提供資料擷取、資料處理和控管功能。這個架構的用途是透過 CI/CD 工作流程部署及控管。下圖顯示這個架構部署的資料層與環境中其他層的關係。

資料網格架構。

這張圖包含下列項目:

  • Google Cloud 基礎架構 提供安全性功能,例如靜態資料加密傳輸中資料加密,以及運算和儲存空間等基本建構區塊。
  • 企業基礎提供資源基準,例如身分識別、網路、記錄、監控和部署系統,可讓您為資料工作負載採用 Google Cloud 。
  • 資料層提供各種功能,例如資料擷取、資料儲存、資料存取權控管、資料治理、資料監控和資料共用。
  • 應用程式層代表使用資料層資產的各種不同應用程式。
  • CI/CD 提供自動化工具,可佈建、設定、管理及部署基礎架構、工作流程和軟體元件。這些元件可協助您確保部署作業一致、可靠且可稽核,盡量減少人為錯誤,並加快整體開發週期。

為展示資料環境的使用方式,架構中包含範例資料工作流程。範例資料工作流程會帶您瞭解下列程序:資料治理、資料擷取、資料處理、資料共用和資料使用。

重要架構決策

下表摘要說明架構的高階決策。

決策領域 決定
Google Cloud 架構

資源階層

這個架構採用企業基礎藍圖的資源階層

網路

這個架構包含範例資料移轉服務,該服務使用 Workload Identity Federation 和 Tink 程式庫。

角色和 IAM 權限

架構包括區隔的資料生產者角色、資料消費者角色、資料治理角色和資料平台角色。

常見資料服務

中繼資料

此架構使用 Data Catalog 管理資料中繼資料。

集中管理政策

如要管理政策,架構會使用 CDMC 框架的 Google Cloud實作項目。

資料存取權管理

為控管資料存取權,架構中包含獨立程序,資料消費者必須向資料擁有者要求存取資料資產。

資料品質

這項架構會使用 Cloud Data Quality Engine,在指定的資料表欄上定義及執行資料品質規則,並根據正確性和完整性等指標評估資料品質。

資料安全性

這項架構會使用標記、加密、遮蓋、符記化和 IAM 控制項,提供資料安全性。

資料網域

資料環境

此架構包含三個環境。兩個環境 (非實際工作環境和實際工作環境) 是由管道驅動的作業環境。其中一個環境 (開發) 是互動式環境。

資料擁有者

資料擁有者負責擷取、處理、公開及授予資料資產的存取權。

資料消費者

資料消費者要求存取資料資產。

新手上路和作業

管道

架構會使用下列管道部署資源:

  • 基礎管道
  • 基礎架構管道
  • 構件管道
  • Service Catalog 管道

存放區

每個管道都會使用個別存放區,以區分責任。

處理流程

這項程序規定,對正式環境所做的變更必須包含提交者和核准者。

雲端作業

資料產品評量表

報表引擎會產生資料產品評量表。

Cloud Logging

這個架構採用企業基礎藍圖中的記錄基礎架構

Cloud Monitoring

這項架構採用企業基礎藍圖的監控基礎架構。

身分:將角色對應至群組

資料網格會運用企業基礎藍圖現有的身分生命週期管理、授權和驗證架構。使用者不會直接獲派角色,而是透過群組指派 IAM 中的角色和權限。專案建立期間,系統會透過基礎管道指派 IAM 角色和權限。

資料網格會將群組與下列四個主要領域建立關聯: 基礎架構資料治理以網域為準的資料生產者, 以及以網域為準的消費者

這些群組的權限範圍如下:

  • 基礎架構群組的權限範圍是整個資料網格。
  • 資料治理群組的權限範圍是資料治理專案。
  • 以網域為準的生產者和消費者權限,範圍僅限於資料網域。

下表列出這個資料網格實作項目中使用的各種角色,以及相關聯的權限。

基礎架構

群組 說明 角色

data-mesh-ops@example.com

資料網格的整體管理員

roles/owner (資料平台)

資料管理

群組 說明 角色

gcp-dm-governance-admins@example.com

資料治理專案管理員

資料治理專案的 roles/owner 權限

gcp-dm-governance-developers@example.com

建構及維護資料治理元件的開發人員

資料治理專案的多個角色,包括 roles/viewer、BigQuery 角色和 Data Catalog 角色

gcp-dm-governance-data-readers@example.com

資料治理資訊的讀者

roles/viewer

gcp-dm-governance-security-administrator@example.com

管理專案的安全性管理員

roles/orgpolicy.policyAdminroles/iam.securityReviewer

gcp-dm-governance-tag-template-users@example.com

有權使用標記範本的群組

roles/datacatalog.tagTemplateUser

gcp-dm-governance-tag-users@example.com

有權使用標記範本及新增標記的群組

roles/datacatalog.tagTemplateUserroles/datacatalog.tagEditor

gcp-dm-governance-scc-notifications@example.com

Security Command Center 通知的服務帳戶群組

無,這是成員群組,系統會以這個名稱建立服務帳戶,並授予必要權限。

以網域為基礎的資料生產者

群組 說明 角色

gcp-dm-{data_domain_name}-admins@example.com

特定資料網域的管理員

資料領域專案的 roles/owner 權限

gcp-dm-{data_domain_name}-developers@example.com

在資料網域中建構及維護資料產品的開發人員

資料網域專案的多個角色,包括 roles/viewer、BigQuery 角色和 Cloud Storage 角色

gcp-dm-{data_domain_name}-data-readers@example.com

資料網域資訊的讀取者

roles/viewer

gcp-dm-{data_domain_name}-metadata-editors@{var.domain}

Data Catalog 項目編輯者

編輯 Data Catalog 項目所需的角色

gcp-dm-{data_domain_name}-data-stewards@example.com

資料網域的資料管理員

管理中繼資料和資料治理層面的角色

以網域為基礎的資料消費者

群組 說明 角色

gcp-dm-consumer-{project_name}-admins@example.com

特定消費者專案的管理員

消費者專案的 roles/owner 權限

gcp-dm-consumer-{project_name}-developers@example.com

在消費者專案中工作的開發人員

在消費者專案中擁有多個角色,包括 roles/viewer 和 BigQuery 角色

gcp-dm-consumer-{project_name}-data-readers@example.com

用戶專案資訊的讀取者

roles/viewer

組織架構

為區分實際工作環境作業和實際工作環境資料,架構會使用不同環境來開發及發布工作流程。生產作業包括工作流程的管理、追溯和可重複性,以及工作流程結果的可稽核性。生產資料是指您需要用來經營機構的可能機密資料。所有環境都設有安全控管機制,方便您擷取及操作資料。

為協助數據資料學家和工程師,這項架構包含互動式環境,開發人員可直接使用該環境,並透過精選的解決方案目錄新增服務。作業環境是由管道驅動,管道具有編碼架構和設定。

這個架構以企業基礎藍圖的組織架構為基礎,部署資料工作負載。下圖顯示企業資料網格架構中使用的頂層資料夾和專案。

資料網格組織結構。

下表說明架構中的頂層資料夾和專案。

資料夾 元件 說明

common

prj-c-artifact-pipeline

包含用於建構架構程式碼構件的部署管道。

prj-c-service-catalog

包含 Service Catalog 用於在互動式環境中部署資源的基礎架構。

prj-c-datagovernance

包含 Google Cloud實作 CDMC 架構時使用的所有資源。

development

fldr-d-dataplatform

包含資料平台的專案和資源,可在互動模式中開發用途。

non-production

fldr-n-dataplatform

包含資料平台專案和資源,可用於測試要在作業環境中部署的用途。

production

fldr-p-dataplatform

包含資料平台專案和資源,可部署至正式環境。

資料平台資料夾

資料平台資料夾包含所有資料平面元件和部分 CDMC 資源。此外,資料平台資料夾和資料治理專案也包含 CDMC 資源。下圖顯示部署在資料平台資料夾中的資料夾和專案。

資料平台資料夾

每個資料平台資料夾都包含環境資料夾 (實際工作環境、非實際工作環境和開發環境)。下表說明各資料平台資料夾中的資料夾。

資料夾 說明

製作人

包含資料網域。

使用者

內含消費者專案。

資料領域

包含與特定網域相關聯的專案。

製作者資料夾

每個生產者資料夾都包含一或多個資料網域。資料網域是指資料元素的邏輯分組,這些元素具有共同的意義、用途或業務背景。資料網域可讓您在組織內分類及整理資料資產。下圖顯示資料網域的結構。架構會在每個環境的資料平台資料夾中部署專案。

製作人資料夾。

下表說明每個環境中部署在資料平台資料夾的專案。

專案 說明

擷取

擷取專案會將資料擷取至資料網域。這項架構提供範例,說明如何將資料串流至 BigQuery、Cloud Storage 和 Pub/Sub。擷取專案也包含 Dataflow 和 Managed Service for Apache Airflow 的範例,可用來協調擷取資料的轉換和移動作業。

非機密

非機密專案包含已去識別化的資料。 您可以遮蓋、容器化、加密、符記化或模糊處理資料。使用政策標記控制資料的呈現方式。

機密

機密專案含有明文資料。您可以透過 IAM 權限控管存取權。

消費者資料夾

消費者資料夾包含消費者專案。消費者專案提供機制,可根據資料使用者的必要信任邊界區隔資料使用者。每個專案都會指派給不同的使用者群組,並視專案需求,授予群組存取必要資料資產的權限。您可以使用消費者專案,收集、分析及擴增群組的資料。

通用資料夾

通用資料夾包含不同環境和專案使用的服務。本節說明新增至通用資料夾的功能,以啟用企業資料網格。

CDMC 架構

此架構採用 CDMC 架構進行資料治理。資料治理函式位於通用資料夾的資料治理專案中。下圖顯示 CDMC 架構的元件。圖中的數字代表 Google Cloud服務解決的關鍵控制項。

CDMC 架構。

下表說明企業資料網格架構使用的 CDMC 架構元件。

CDMC 元件 Google Cloud 服務 說明
存取和生命週期元件

金鑰管理

Cloud KMS

這項服務可安全地管理加密金鑰,保護機密資料。

記錄管理員

Cloud Run

應用程式會維護資料處理活動的完整記錄和記錄檔,確保機構可以追蹤及稽核資料使用情況。

封存政策

BigQuery

包含資料儲存空間政策的 BigQuery 資料表。

授權

BigQuery

BigQuery 資料表,用於儲存可存取機密資料的使用者資訊。這個表格可確保只有授權使用者能根據自己的角色和權限存取特定資料。

掃描元件

資料遺失

Sensitive Data Protection

這項服務用於檢查資產是否含有機密資料。

資料遺失防護發現項目

BigQuery

BigQuery 資料表,用於編目資料平台中的資料分類。

政策

BigQuery

包含一致資料治理做法 (例如資料存取權類型) 的 BigQuery 資料表。

匯出帳單

BigQuery

儲存從 Cloud Billing 匯出的費用資訊,以便分析與資料資產相關聯的費用指標。

Cloud Data Quality Engine

Cloud Run

這個應用程式會對資料表和資料欄執行資料品質檢查。

資料品質發現項目

BigQuery

BigQuery 資料表,記錄定義的資料品質規則與資料資產實際品質之間的差異。

報表元件

排程器

Cloud Scheduler

這項服務可控管 Cloud Data Quality Engine 的執行時間,以及 Sensitive Data Protection 檢查的發生時間。

報表引擎

Cloud Run

這類應用程式會產生報表,協助追蹤及評估 CDMC 架構控管措施的遵循情況。

發現項目和資產

BigQuery 和 Pub/Sub

BigQuery 報表,列出資料管理控制項的差異或不一致之處,例如缺少標記、分類不正確或儲存位置不符規定。

匯出代碼

BigQuery

包含從 Data Catalog 擷取標記資訊的 BigQuery 資料表。

其他元件

政策管理

組織政策服務

這項服務會定義並強制執行資料儲存地理位置的限制。

以屬性為基礎的存取權政策

Access Context Manager

這項服務可定義及強制執行以屬性為準的精細存取權政策,確保只有來自允許位置和裝置的授權使用者,才能存取機密資訊。

中繼資料

Data Catalog

這項服務會儲存資料網格中使用的資料表相關中繼資料資訊。

標記引擎

Cloud Run

可將標記新增至 BigQuery 資料表的應用程式。

CDMC 報表

數據分析

資訊主頁:分析師可透過資訊主頁查看 CDMC 架構引擎產生的報表。

CDMC 實作

下表說明架構如何實作 CDMC 架構中的主要控制項。

CDMC 控制項規定 實作

資料控制法規遵循

報表引擎會偵測不符規定的資料資產,並將結果發布至 Pub/Sub 主題。這些發現也會載入 BigQuery,以便使用數據分析製作報表。

為遷移和雲端產生的資料建立資料擁有權

Data Catalog 會自動擷取 BigQuery 的技術中繼資料。標記引擎會從參照表套用業主名稱和機密程度等商家中繼資料標記,確保所有機密資料都標記業主資訊,以符合法規。這個自動標記程序有助於提供資料治理和法規遵循功能,方法是找出機密資料並標記適當的擁有者資訊。

自動化功能會控管及支援資料來源和使用情形

Data Catalog 會在資料資產是權威來源時,以 is_authoritative 標記標記資料資產,藉此分類資料資產。Data Catalog 會自動將資訊連同技術中繼資料儲存在資料登錄中。報表引擎和標記引擎可使用 Pub/Sub 驗證並回報權威來源的資料登錄。

管理資料主權和跨國資料遷移

機構政策服務會定義資料資產的允許儲存區域,Access Context Manager則會根據使用者位置限制存取權。Data Catalog 會將核准的儲存位置儲存為中繼資料標記。報表引擎會比對這些標記與 BigQuery 中資料資產的實際位置,並透過 Pub/Sub 將所有差異發布為調查結果。如果資料儲存或存取位置超出定義的政策範圍,Security Command Center 會產生安全漏洞發現項目,提供額外的監控層。

實作、使用及互通資料目錄

Data Catalog 會儲存及更新所有 BigQuery 資料資產的技術中繼資料,有效建立持續同步的資料目錄。Data Catalog 會確保任何新增或修改的資料表和檢視畫面都會立即加入目錄,維持最新的資料資產清單。

定義及使用資料分類

Sensitive Data Protection 會檢查 BigQuery 資料,並識別敏感資訊類型。然後根據分類參照表對這些發現項目進行排序,並在資料欄和資料表層級,將最高機密程度指派為 Data Catalog 中的標記。每當新增資料資產或修改現有資產時,標記引擎就會更新 Data Catalog 中的機密程度標記,藉此管理這項程序。這個程序可確保系統根據資料的敏感程度持續更新分類,您可以使用 Pub/Sub 和整合式報表工具監控及回報資料。

管理、強制執行及追蹤資料授權

BigQuery 政策標記可控管資料欄層級的機密資料存取權,確保只有獲得授權的使用者,才能根據指派的政策標記存取特定資料。IAM 可管理資料倉儲的整體存取權,而 Data Catalog 則會儲存敏感度分類。系統會定期檢查,確保所有機密資料都有對應的政策標記,並透過 Pub/Sub 報告任何差異,以利修正。

管理資料的存取、使用方式和結果,確保符合道德規範

供應商和消費者適用的資料共用協議會儲存在專屬的 BigQuery 資料倉儲中,以控管消費目的。Data Catalog 會使用供應商協議資訊標記資料資產,而消費者協議則會連結至 IAM 繫結,以進行存取控管。查詢標籤會強制執行使用目的,要求消費者查詢機密資料時指定有效目的,並根據他們在 BigQuery 中的權利進行驗證。BigQuery 中的稽核追蹤記錄會追蹤所有資料存取權,確保符合資料共用協議。

資料受到保護,且控制項有證據可證

Google 預設的靜態資料加密機制可保護儲存在磁碟上的資料。Cloud KMS 支援客戶管理加密金鑰 (CMEK),可強化金鑰管理。BigQuery 會導入資料欄層級的動態資料遮蓋功能,以去識別化資料,並支援在擷取資料時進行應用程式層級的去識別化作業。Data Catalog 會儲存套用至資料資產的加密和去識別化技術中繼資料標記。自動檢查功能可確保加密和去識別化方法符合預先定義的安全性政策,並透過 Pub/Sub 將所有差異回報為發現項目。

定義並實施資料隱私權架構

Data Catalog 會為敏感資料資產加上相關資訊的標記,以利影響評估,例如主體位置和評估報告連結。Tag Engine 會根據資料機密程度和 BigQuery 中的政策資料表套用這些標記,該資料表會根據資料和主體居住地定義評估需求。這項自動標記程序可持續監控並回報影響評估要求的遵循情形,確保在必要時進行資料保護影響評估 (DPIA) 或保護影響評估 (PIA)。

規劃及管理資料生命週期

Data Catalog 會為資料資產加上資料保留政策標籤,指定保留期限和到期動作 (例如封存或清除)。Record Manager 會根據定義的標記,自動清除或封存 BigQuery 資料表,藉此強制執行這些政策。這項強制措施可確保遵守資料生命週期政策,並維持資料保留規定的一致性,同時透過 Pub/Sub 偵測及回報任何差異。

管理資料品質

Cloud Data Quality Engine 會在指定的資料表欄定義及執行資料品質規則,並根據正確性和完整性等指標評估資料品質。這些檢查的結果 (包括成功百分比和門檻) 會以標記形式儲存在 Data Catalog 中。儲存這些結果可持續監控及回報資料品質,並透過 Pub/Sub 將任何問題或可接受門檻的偏差發布為發現項目。

建立並套用成本管理原則

Data Catalog 會儲存資料資產的費用相關指標,例如查詢費用、儲存費用和資料輸出費用,這些費用是使用從 Cloud Billing 匯出至 BigQuery 的帳單資訊計算而得。儲存費用相關指標可進行全面的費用追蹤和分析,確保遵守費用政策並有效運用資源,且任何異常狀況都會透過 Pub/Sub 服務回報。

瞭解資料出處和歷程

Data Catalog 內建的資料歷程功能可追蹤資料資產的來源和歷程,並以視覺化方式呈現資料流。此外,資料擷取指令碼會在 Data Catalog 中識別並標記資料的原始來源,加強資料回溯至來源的可追溯性。

資料存取權管理

架構的資料存取權是透過獨立程序控管,將作業控制 (例如執行 Dataflow 工作) 與資料存取控管分開。使用者對 Google Cloud 服務的存取權取決於環境或作業考量,並由雲端工程團隊佈建及核准。使用者對 Google Cloud 資料資產 (例如 BigQuery 資料表) 的存取權涉及隱私權、法規或管理問題,且須遵守生產和消費方之間的存取協議,並透過下列程序控管。下圖顯示如何透過不同軟體元件的互動,佈建資料存取權。

資料存取權管理

如上圖所示,資料存取權的導入作業由下列程序處理:

  • Data Catalog 會收集並清查雲端資料資產。
  • 工作流程管理工具會從 Data Catalog 擷取資料資產。
  • 資料擁有者已加入工作流程管理工具。

資料存取權管理作業如下:

  1. 資料消費者要求存取特定資產。
  2. 系統會向資產的資料擁有者發出要求警示。
  3. 資料擁有者會核准或拒絕要求。
  4. 如果要求獲准,工作流程管理員會將群組、資產和相關聯的標記傳遞至 IAM 對應工具。
  5. IAM 對應器會將工作流程管理員標記轉換為 IAM 權限,並將資料資產的 IAM 權限授予指定群組。
  6. 使用者想存取資料資產時,IAM 會根據群組的權限評估資產的存取權 Google Cloud 。
  7. 如果允許,使用者就能存取資料資產。

網路

資料安全性程序會在來源應用程式啟動,該應用程式可能位於地端部署環境,或目標Google Cloud 專案外部的其他環境。在進行任何網路傳輸前,這個應用程式會使用 Workload Identity Federation,向 Google Cloud API 安全地驗證自身。使用這些憑證與 Cloud KMS 互動,取得或包裝必要金鑰,然後根據預先定義的範本,使用 Tink 程式庫對敏感資料酬載執行初始加密和去識別化作業。

保護資料酬載後,必須將酬載安全地轉移到 Google Cloud 擷取專案。如果是內部部署應用程式,則可以使用 Cloud Interconnect 或 Cloud VPN。在Google Cloud 網路中,使用 Private Service Connect 將資料路徑導向目標專案虛擬私有雲網路中的擷取端點。透過 Private Service Connect,來源應用程式可以使用私人 IP 位址連線至 Google API,確保流量不會暴露於網際網路。

整個網路路徑和擷取專案中的目標擷取服務 (Cloud Storage、BigQuery 和 Pub/Sub) 都受到 VPC Service Controls 服務周邊保護。這個 perimeter 會強制執行安全邊界,確保來源的受保護資料只能擷取至特定專案中的授權Google Cloud 服務。

記錄

這個架構使用企業基礎藍圖提供的 Cloud Logging 功能。

管道

企業資料網格架構會使用一系列管道來佈建基礎架構、自動化調度管理、資料集、資料管道和應用程式元件。架構的資源部署管道會使用 Terraform 做為基礎架構即程式碼 (IaC) 工具,並使用 Cloud Build 做為 CI/CD 服務,將 Terraform 設定部署到架構環境。下圖顯示管道之間的關係。

管道關係

基礎管道和基礎架構管道是企業基礎藍圖的一部分。下表說明管道的用途,以及管道佈建的資源。

管道 佈建者 資源

基礎管道

啟動

  • 資料平台資料夾和子資料夾
  • 常見專案
  • 基礎架構管道服務帳戶
  • 基礎架構管道的 Cloud Build 自動建構觸發條件
  • 共用虛擬私有雲
  • VPC Service Control 範圍

基礎架構管道

基礎管道

  • 消費者專案
  • Service Catalog 服務帳戶
  • Service Catalog 管道的 Cloud Build 自動建構觸發條件
  • 構件管道服務帳戶
  • 構件管道的 Cloud Build 自動建構觸發條件

Service Catalog 管道

基礎架構管道

  • 部署在 Service Catalog 值區中的資源

構件管道

基礎架構管道

構件管道會產生資料網格使用的程式碼集各種容器和其他元件。

每個管道都有自己的存放區,可從中提取程式碼和設定檔。每個存放區都有職責區隔,其中作業程式碼部署的提交者和核准者由不同群組負責。

透過 Service Catalog 進行互動式部署

互動式環境是架構內的開發環境,位於開發資料夾下方。互動式環境的主要介面是 Service Catalog,開發人員可使用預先設定的範本,例項化 Google 服務。這些預先設定的範本稱為「服務範本」。服務範本可協助您強制執行安全防護措施,例如強制使用 CMEK 加密,並防止使用者直接存取 Google API。

下圖顯示互動式環境的元件,以及資料科學家如何部署資源。

與 Service Catalog 互動的環境。

如要使用 Service Catalog 部署資源,請按照下列步驟操作:

  1. MLOps 工程師將 Google Cloud的 Terraform 資源範本放入 Git 存放區。
  2. Git Commit 指令會觸發 Cloud Build 管道。
  3. Cloud Build 會將範本和任何相關聯的設定檔複製到 Cloud Storage。
  4. MLOps 工程師會手動設定 Service Catalog 解決方案和 Service Catalog。接著,工程師會在互動式環境中,與服務專案共用 Service Catalog。
  5. 資料科學家從 Service Catalog 中選取資源。
  6. Service Catalog 會將範本部署至互動式環境。
  7. 資源會提取所有必要的設定指令碼。
  8. 資料科學家會與資源互動。

構件管道

資料擷取程序會使用 Managed Airflow 和 Dataflow,協調資料網域內的資料移動和轉換作業。構件管道會建構資料擷取所需的所有資源,並將資源移至適當位置,供服務存取。構件管道會建立協調器使用的容器構件。

安全性控管

企業資料網格架構採用分層縱深防禦安全模型,包括預設 Google Cloud 功能、 Google Cloud服務,以及透過企業基礎藍圖設定的安全功能。下圖顯示架構中各項安全控管措施的層級。

資料網格架構中的安全控管機制。

下表說明與各層資源相關的安全性控制措施。

圖層 資源 安全控管措施

CDMC 架構

Google Cloud 導入 CDMC

提供管理架構,協助保護、管理及控管資料資產。詳情請參閱 CDMC 主要控制項架構

部署

基礎架構管道

提供一系列管道,可部署基礎架構、建構容器及建立資料管道。使用管道可確保可稽核性、可追溯性和可重複性。

構件管道

部署基礎架構管道未部署的各種元件。

Terraform 範本

建構系統基礎架構。

Open Policy Agent

確保平台符合所選政策。

網路

Private Service Connect

在 API 層和 IP 層的架構資源周圍,提供資料竊取防護措施。可讓您使用私人 IP 位址與 Google Cloud API 通訊,避免流量暴露於網際網路。

具有私人 IP 位址的虛擬私有雲網路

有助於避免暴露於面向網際網路的威脅。

VPC Service Controls

有助於保護機密資源,避免資料竊取。

防火牆

有助於保護虛擬私有雲網路,避免遭到未經授權的存取。

存取權管理

Access Context Manager

控管哪些人能存取哪些資源,並防止資源遭未經授權使用。

Workload Identity 聯盟

您不必使用外部憑證,就能將地端部署環境的資料移轉至平台。

Data Catalog

提供使用者可用的資產索引。

IAM

提供精細的存取權。

加密

Cloud KMS

可讓您管理加密金鑰和密碼,並透過靜態資料加密和傳輸中加密功能,協助保護資料。

Secrets Manager

為受 IAM 控制的管道提供密鑰儲存空間。

靜態資料加密

根據預設, Google Cloud 會加密靜態資料。

傳輸中資料加密

根據預設, Google Cloud 會加密傳輸中的資料

偵測性

Security Command Center

協助您偵測組織中的設定錯誤和惡意活動。 Google Cloud

持續架構

持續根據您定義的一系列 OPA 政策檢查機構。 Google Cloud

IAM 建議工具

分析使用者權限,並提供減少權限的建議,協助強制執行最低權限原則。

防火牆洞察

分析防火牆規則、找出過於寬鬆的防火牆規則,並建議更嚴格的防火牆,協助您強化整體安全防護機制。

Cloud Logging

提供系統活動的能見度,有助於偵測異常狀況和惡意活動。

Cloud Monitoring

追蹤有助於識別可疑活動的重要信號和事件。

預防

機構政策

可讓您控管及限制機構內的動作。 Google Cloud

工作流程

以下各節將說明資料生產者工作流程和資料消費者工作流程,確保根據資料機密程度和使用者角色,提供適當的存取控管機制。

資料產生者工作流程

下圖顯示資料移轉至 BigQuery 時的保護方式。

資料產生者工作流程

資料移轉工作流程如下:

  1. 與 Workload Identity 聯盟整合的應用程式會使用 Cloud KMS 解密包裝的加密金鑰。
  2. 應用程式會使用 Tink 程式庫,透過範本將資料去識別化或加密。
  3. 應用程式會將資料移轉至 Google Cloud中的擷取專案。
  4. 資料會傳送到 Cloud Storage、BigQuery 或 Pub/Sub。
  5. 在擷取專案中,系統會使用範本解密或重新識別資料。
  6. 系統會根據另一個去識別化範本加密或遮蓋解密資料,然後將資料放入非機密專案。標記引擎會視情況套用標記。
  7. 非機密專案的資料會轉移至機密專案,並重新識別。

允許存取下列資料:

  • 有權存取機密專案的使用者,可以存取所有原始純文字資料。
  • 有權存取非機密專案的使用者,可根據與資料相關聯的標記和自身權限,存取經過遮蓋、權杖化或加密的資料。

資料消費者工作流程

以下步驟說明消費者如何存取儲存在 BigQuery 中的資料。

  1. 資料消費者使用 Data Catalog 搜尋資料資產。
  2. 消費者找到所需資產後,資料消費者會要求存取資料資產。
  3. 資料擁有者會決定是否要提供資產存取權。
  4. 取得存取權後,消費者就能使用筆記本和解決方案目錄建立環境,分析及轉換資料資產。

全面整合

部署企業基礎架構後,您可以在 GitHub 存放區中找到在Google Cloud 上部署資料網格的詳細操作說明。部署架構的過程需要修改現有的基礎架構存放區,並部署新的資料網格專屬元件。

完成下列步驟:

  1. 完成所有必要條件,包括:
    1. 安裝 Google Cloud CLITerraformTinkJavaGo
    2. 部署企業基礎藍圖 (v4.1)
    3. 維護下列本機存放區:
      • gcp-data-mesh-foundations
      • gcp-bootstrap
      • gcp-environments
      • gcp-networks
      • gcp-org
      • gcp-projects
  2. 修改現有的基礎藍圖,然後部署資料網格應用程式。請針對每個項目完成下列步驟:
    1. 在目標存放區中,查看 Plan 分支。
    2. 如要新增資料網格元件,請從 gcp-data-mesh-foundations 將相關檔案和目錄複製到適當的基礎目錄。視需要覆寫檔案。
    3. 在 Terraform 檔案中更新資料網格變數、角色和設定 (例如 *.tfvars*.tf)。將 GitHub 權杖設為環境變數。
    4. 對每個存放區執行 Terraform 初始化、計畫和套用作業。
    5. 提交變更、將程式碼推送至遠端存放區、建立提取要求,並合併至開發、非正式和正式環境。

後續步驟