複製功能總覽

Cloud Data Fusion Replication 可讓您從作業資料儲存區 (例如 SQL Server 和 MySQL) 持續即時建立資料副本,並匯入 BigQuery

如要使用複製功能,請選擇下列其中一種方式:

  • 建立新的 Cloud Data Fusion 執行個體,並新增 Replication 應用程式。
  • 將 Replication 應用程式新增至現有執行個體。

包括以下優點:

  • 在開始複製作業前,先找出結構定義不相容、連線問題和缺少的功能,然後提供修正措施。

  • 在 BigQuery 中使用最新的作業資料進行即時分析。您可以直接從 Microsoft SQL Server (使用 SQL Server CDC) 和 MySQL (使用 MySQL 二進位記錄),透過記錄複製資料到 BigQuery。

  • 變更資料擷取 (CDC) 可提供串流中變更的資料表示法,讓運算和處理作業專注於最近變更的記錄。這可將敏感正式環境系統的外送數據傳輸費降到最低。

  • 企業級擴充性,支援大量交易資料庫。支援以零停機時間的快照複製功能,將資料初始載入至 BigQuery,讓資料倉儲準備好持續取用變更。初始快照完成後,系統會開始以高處理量即時持續複製變更。

  • 資訊主頁可協助您即時掌握複製效能。這項功能有助於找出瓶頸,以及監控資料傳送服務等級協議。

  • 包括支援資料落地、客戶自行管理的加密金鑰 (CMEK) 和 VPC Service Controls。在Google Cloud 中整合 Cloud Data Fusion,可確保在資料倉儲中提供最新資料以供分析時,遵守最高等級的企業安全和隱私權規範。

執行複寫作業時,系統會收取 Managed Service for Apache Spark 叢集的費用,並產生 BigQuery 的處理費用。為盡量降低這類費用,我們強烈建議您使用 BigQuery 固定費率計價模式

詳情請參閱 Cloud Data Fusion 定價頁面。

複製實體

實體 說明
複製 複製是 Cloud Data Fusion 的一項功能,可從作業資料儲存區以低延遲時間,持續將資料複製到分析資料倉儲。設定來源和目標 (可選用轉換作業),建立複寫工作。
來源 讀取資料庫、資料表或資料欄變更事件,並在複寫作業中提供這些事件,以供進一步處理。複製工作包含一個來源,該來源會依據變更擷取解決方案提供變更。資料庫可以有多個來源,每個來源都有不同的變更擷取解決方案。來源是使用 CDAP 外掛程式架構建構的可插入式模組。如果沒有符合需求的來源,您可以實作來源介面來自行建構,然後上傳至 CDAP 或 Cloud Data Fusion。
目標 將從來源收到的變更寫入目標資料庫。複製作業包含一個目標。 目標是使用 CDAP 的外掛程式架構建構的可外掛模組。如果沒有符合需求的目標,您可以實作目標介面,然後上傳至 CDAP 或 Cloud Data Fusion,自行建構目標。
來源資源 設定來源,包括連線詳細資料、來源資料庫和資料表名稱、憑證和其他屬性。
目標屬性 設定目標,包括連線詳細資料、目標資料庫和資料表名稱、憑證和其他屬性。
複製作業屬性 設定複製作業,包括失敗門檻、暫存區、通知和驗證設定。
草稿 已儲存但未完成的複製作業。複製工作定義完成後,即可啟動。
活動 變更來源中的事件,以便複製到目標。事件包括插入、更新、刪除和 DDL (資料定義語言) 變更。
插入 在來源中新增記錄。
更新 更新來源中的現有記錄。
刪除 移除來源中的現有記錄。
DDL 變更 包含結構定義變更的事件,例如資料類型或名稱變更。
記錄 複製作業的作業記錄。
複製工作詳細資料 詳細資料頁面,其中包含複製作業資訊,例如目前狀態、作業指標、歷來檢視畫面、驗證結果和設定。
資訊主頁 這個頁面會列出所有變更資料擷取活動的狀態,包括處理量、延遲時間、失敗率和驗證結果。

動作

動作 說明
部署 按照網頁介面流程建立新的複製作業,指定來源、目標及其設定。
儲存 儲存部分建立的複製工作,以便稍後繼續建立。
刪除 刪除現有的複製工作。只能刪除已停止的管道。
開始 啟動複製作業。如有待處理的變更,複製作業會進入 `active` 狀態;否則會進入 `waiting` 狀態。
停止 停止複製作業。複製作業會停止處理來源的變更。
查看記錄 查看複寫工作的記錄,以便進行偵錯或其他分析。
搜尋 依名稱、說明或其他複寫工作的中繼資料搜尋複寫工作。
評估 開始複製前,請先評估複製作業的影響。評估複製作業會產生評估報告,標記架構不相容和缺少的功能。

監控

複寫器狀態 說明
已部署 複製作業已部署,但尚未啟動。 在此狀態下,複製工作不會複製事件。
啟動中 複製作業正在初始化,尚未準備好複製變更。
執行中 複製作業已啟動,並正在複製變更。
停止中 複製作業正在停止。
已停止 複製工作已停止。
失敗 發生重大錯誤,因此複寫工作失敗。

資料表狀態

概念 說明
快照建立中 複製工作會先為資料表目前的狀態建立快照,再複製變更。
複製中 複製作業正在將來源資料表中的變更複製到目的地資料表。
失敗 由於發生錯誤,複製作業無法複製來源資料表的變更。

指標

概念 說明
插入 在所選時間範圍內,套用至目標的插頁數量。
更新 所選時間範圍內套用至目標的更新次數。
刪除次數 所選時間範圍內套用至目標的刪除次數。
DDL 在所選時間範圍內,套用至目標的 DDL 變更數量。
處理量 在所選時間範圍內,複製到目標的事件數和位元組數。
延遲時間 所選時間範圍內,資料複製到目標的延遲時間。

元件

元件 說明
服務 負責複製工作的端對端自動化調度管理,並提供設計、部署、管理及監控複製工作的功能。這項服務會在 Cloud Data Fusion 租戶專案中執行 (使用者看不到租戶專案)。您可以在 Cloud Data Fusion 網頁介面的「系統管理」頁面查看狀態。
狀態管理 這項服務會管理客戶專案中 Cloud Storage bucket 內每個複製工作的狀態。建立複寫工作時,可以設定值區。這個主題會儲存每個複製工作的目前偏移和複製狀態。
執行 Apache Spark 叢集的代管服務提供複製工作的執行環境,這些工作會在您的專案中執行。複製工作會使用 CDAP 工作站執行。執行環境的大小和特徵是透過 Compute Engine 設定檔設定。
來源資料庫 您的生產作業資料庫,會複製到目標資料庫。這個資料庫可以位於地端部署或 Google Cloud。Cloud Data Fusion Replication 支援 MySQL、Microsoft SQL Server 和 Oracle 來源資料庫。
變更追蹤解決方案 Cloud Data Fusion 不會透過在來源資料庫上執行的代理程式執行作業,而是依賴變更追蹤解決方案讀取來源資料庫中的變更。解決方案可以是來源資料庫的元件,也可以是另外授權的第三方解決方案。在後者中,變更追蹤解決方案會在來源資料庫的同地共置環境或 Google Cloud中執行。每個來源都必須與變更追蹤解決方案建立關聯。
  1. SQL Server
    • 支援的解決方案: SQL Server 變更資料擷取 (變更追蹤資料表)
    • 其他軟體:
    • 授權/費用:不適用
    • 備註:適用於 SQL Server 2016 以上版本
  2. MySQL
  3. Oracle
目標資料庫 用於複製和分析的目的地位置。 Cloud Data Fusion 支援 BigQuery 目標資料庫。
驗證 驗證機制會因來源資料庫或變更追蹤軟體而異。使用來源資料庫 (例如 SQL Server 和 MySQL) 的內建功能時,系統會使用資料庫登入資訊進行驗證。使用變更追蹤軟體時,系統會採用該軟體的驗證機制。

連線能力

下表說明複寫作業所需的網路連線,以及使用的安全機制。

寄件者 收件者 選用 通訊協定 網路 驗證程序安全性 目的
服務 (租戶專案) 來源資料庫 視複製來源而定。JDBC,用於直接連線至資料庫。 對等互連 + 防火牆規則 + VPN/互連 + 路由器 資料庫登入 設計時需要,執行時不需要 函式:表格清單、評估 (選用步驟; 即使沒有這些步驟,複製作業仍可繼續)
服務 (租戶專案) Cloud Storage Cloud API VPC-SC IAM 狀態管理:偏移量、複製狀態
Managed Service for Apache Spark (您的專案) 來源資料庫 視來源而定。JDBC,用於直接連線至資料庫。 對等互連 + 防火牆規則 + VPN/互連 + 路由器 資料庫登入 執行時需要,用於從來源資料庫讀取變更,並複製到目標
Managed Service for Apache Spark (您的專案) Cloud Storage Cloud API VPC-SC IAM 狀態管理:偏移量、複製狀態
Managed Service for Apache Spark (您的專案) BigQuery Cloud API VPC-SC IAM 執行時需要,才能將來源資料庫的變更套用至目標
私人 IPVPC-SCCMEK

後續步驟