Cloud Data Fusion Replication 可讓您從作業資料儲存區 (例如 SQL Server 和 MySQL) 持續即時建立資料副本,並匯入 BigQuery。
如要使用複製功能,請選擇下列其中一種方式:
- 建立新的 Cloud Data Fusion 執行個體,並新增 Replication 應用程式。
- 將 Replication 應用程式新增至現有執行個體。
包括以下優點:
在開始複製作業前,先找出結構定義不相容、連線問題和缺少的功能,然後提供修正措施。
在 BigQuery 中使用最新的作業資料進行即時分析。您可以直接從 Microsoft SQL Server (使用 SQL Server CDC) 和 MySQL (使用 MySQL 二進位記錄),透過記錄複製資料到 BigQuery。
變更資料擷取 (CDC) 可提供串流中變更的資料表示法,讓運算和處理作業專注於最近變更的記錄。這可將敏感正式環境系統的外送數據傳輸費降到最低。
企業級擴充性,支援大量交易資料庫。支援以零停機時間的快照複製功能,將資料初始載入至 BigQuery,讓資料倉儲準備好持續取用變更。初始快照完成後,系統會開始以高處理量即時持續複製變更。
資訊主頁可協助您即時掌握複製效能。這項功能有助於找出瓶頸,以及監控資料傳送服務等級協議。
包括支援資料落地、客戶自行管理的加密金鑰 (CMEK) 和 VPC Service Controls。在Google Cloud 中整合 Cloud Data Fusion,可確保在資料倉儲中提供最新資料以供分析時,遵守最高等級的企業安全和隱私權規範。
建議價格
執行複寫作業時,系統會收取 Managed Service for Apache Spark 叢集的費用,並產生 BigQuery 的處理費用。為盡量降低這類費用,我們強烈建議您使用 BigQuery 固定費率計價模式。
詳情請參閱 Cloud Data Fusion 定價頁面。
複製實體
| 實體 | 說明 |
|---|---|
| 複製 | 複製是 Cloud Data Fusion 的一項功能,可從作業資料儲存區以低延遲時間,持續將資料複製到分析資料倉儲。設定來源和目標 (可選用轉換作業),建立複寫工作。 |
| 來源 | 讀取資料庫、資料表或資料欄變更事件,並在複寫作業中提供這些事件,以供進一步處理。複製工作包含一個來源,該來源會依據變更擷取解決方案提供變更。資料庫可以有多個來源,每個來源都有不同的變更擷取解決方案。來源是使用 CDAP 外掛程式架構建構的可插入式模組。如果沒有符合需求的來源,您可以實作來源介面來自行建構,然後上傳至 CDAP 或 Cloud Data Fusion。 |
| 目標 | 將從來源收到的變更寫入目標資料庫。複製作業包含一個目標。 目標是使用 CDAP 的外掛程式架構建構的可外掛模組。如果沒有符合需求的目標,您可以實作目標介面,然後上傳至 CDAP 或 Cloud Data Fusion,自行建構目標。 |
| 來源資源 | 設定來源,包括連線詳細資料、來源資料庫和資料表名稱、憑證和其他屬性。 |
| 目標屬性 | 設定目標,包括連線詳細資料、目標資料庫和資料表名稱、憑證和其他屬性。 |
| 複製作業屬性 | 設定複製作業,包括失敗門檻、暫存區、通知和驗證設定。 |
| 草稿 | 已儲存但未完成的複製作業。複製工作定義完成後,即可啟動。 |
| 活動 | 變更來源中的事件,以便複製到目標。事件包括插入、更新、刪除和 DDL (資料定義語言) 變更。 |
| 插入 | 在來源中新增記錄。 |
| 更新 | 更新來源中的現有記錄。 |
| 刪除 | 移除來源中的現有記錄。 |
| DDL 變更 | 包含結構定義變更的事件,例如資料類型或名稱變更。 |
| 記錄 | 複製作業的作業記錄。 |
| 複製工作詳細資料 | 詳細資料頁面,其中包含複製作業資訊,例如目前狀態、作業指標、歷來檢視畫面、驗證結果和設定。 |
| 資訊主頁 | 這個頁面會列出所有變更資料擷取活動的狀態,包括處理量、延遲時間、失敗率和驗證結果。 |
動作
| 動作 | 說明 |
|---|---|
| 部署 | 按照網頁介面流程建立新的複製作業,指定來源、目標及其設定。 |
| 儲存 | 儲存部分建立的複製工作,以便稍後繼續建立。 |
| 刪除 | 刪除現有的複製工作。只能刪除已停止的管道。 |
| 開始 | 啟動複製作業。如有待處理的變更,複製作業會進入 `active` 狀態;否則會進入 `waiting` 狀態。 |
| 停止 | 停止複製作業。複製作業會停止處理來源的變更。 |
| 查看記錄 | 查看複寫工作的記錄,以便進行偵錯或其他分析。 |
| 搜尋 | 依名稱、說明或其他複寫工作的中繼資料搜尋複寫工作。 |
| 評估 | 開始複製前,請先評估複製作業的影響。評估複製作業會產生評估報告,標記架構不相容和缺少的功能。 |
監控
| 複寫器狀態 | 說明 |
|---|---|
| 已部署 | 複製作業已部署,但尚未啟動。 在此狀態下,複製工作不會複製事件。 |
| 啟動中 | 複製作業正在初始化,尚未準備好複製變更。 |
| 執行中 | 複製作業已啟動,並正在複製變更。 |
| 停止中 | 複製作業正在停止。 |
| 已停止 | 複製工作已停止。 |
| 失敗 | 發生重大錯誤,因此複寫工作失敗。 |
資料表狀態
| 概念 | 說明 |
|---|---|
| 快照建立中 | 複製工作會先為資料表目前的狀態建立快照,再複製變更。 |
| 複製中 | 複製作業正在將來源資料表中的變更複製到目的地資料表。 |
| 失敗 | 由於發生錯誤,複製作業無法複製來源資料表的變更。 |
指標
| 概念 | 說明 |
|---|---|
| 插入 | 在所選時間範圍內,套用至目標的插頁數量。 |
| 更新 | 所選時間範圍內套用至目標的更新次數。 |
| 刪除次數 | 所選時間範圍內套用至目標的刪除次數。 |
| DDL | 在所選時間範圍內,套用至目標的 DDL 變更數量。 |
| 處理量 | 在所選時間範圍內,複製到目標的事件數和位元組數。 |
| 延遲時間 | 所選時間範圍內,資料複製到目標的延遲時間。 |
元件
| 元件 | 說明 |
|---|---|
| 服務 | 負責複製工作的端對端自動化調度管理,並提供設計、部署、管理及監控複製工作的功能。這項服務會在 Cloud Data Fusion 租戶專案中執行 (使用者看不到租戶專案)。您可以在 Cloud Data Fusion 網頁介面的「系統管理」頁面查看狀態。 |
| 狀態管理 | 這項服務會管理客戶專案中 Cloud Storage bucket 內每個複製工作的狀態。建立複寫工作時,可以設定值區。這個主題會儲存每個複製工作的目前偏移和複製狀態。 |
| 執行 | Apache Spark 叢集的代管服務提供複製工作的執行環境,這些工作會在您的專案中執行。複製工作會使用 CDAP 工作站執行。執行環境的大小和特徵是透過 Compute Engine 設定檔設定。 |
| 來源資料庫 | 您的生產作業資料庫,會複製到目標資料庫。這個資料庫可以位於地端部署或 Google Cloud。Cloud Data Fusion Replication 支援 MySQL、Microsoft SQL Server 和 Oracle 來源資料庫。 |
| 變更追蹤解決方案 | Cloud Data Fusion 不會透過在來源資料庫上執行的代理程式執行作業,而是依賴變更追蹤解決方案讀取來源資料庫中的變更。解決方案可以是來源資料庫的元件,也可以是另外授權的第三方解決方案。在後者中,變更追蹤解決方案會在來源資料庫的同地共置環境或 Google Cloud中執行。每個來源都必須與變更追蹤解決方案建立關聯。
|
| 目標資料庫 | 用於複製和分析的目的地位置。 Cloud Data Fusion 支援 BigQuery 目標資料庫。 |
| 驗證 | 驗證機制會因來源資料庫或變更追蹤軟體而異。使用來源資料庫 (例如 SQL Server 和 MySQL) 的內建功能時,系統會使用資料庫登入資訊進行驗證。使用變更追蹤軟體時,系統會採用該軟體的驗證機制。 |
連線能力
下表說明複寫作業所需的網路連線,以及使用的安全機制。
| 寄件者 | 收件者 | 選用 | 通訊協定 | 網路 | 驗證程序安全性 | 目的 |
|---|---|---|---|---|---|---|
| 服務 (租戶專案) | 來源資料庫 | 是 | 視複製來源而定。JDBC,用於直接連線至資料庫。 | 對等互連 + 防火牆規則 + VPN/互連 + 路由器 | 資料庫登入 | 設計時需要,執行時不需要 函式:表格清單、評估 (選用步驟; 即使沒有這些步驟,複製作業仍可繼續) |
| 服務 (租戶專案) | Cloud Storage | 否 | Cloud API | VPC-SC | IAM | 狀態管理:偏移量、複製狀態 |
| Managed Service for Apache Spark (您的專案) | 來源資料庫 | 否 | 視來源而定。JDBC,用於直接連線至資料庫。 | 對等互連 + 防火牆規則 + VPN/互連 + 路由器 | 資料庫登入 | 執行時需要,用於從來源資料庫讀取變更,並複製到目標 |
| Managed Service for Apache Spark (您的專案) | Cloud Storage | 否 | Cloud API | VPC-SC | IAM | 狀態管理:偏移量、複製狀態 |
| Managed Service for Apache Spark (您的專案) | BigQuery | 否 | Cloud API | VPC-SC | IAM | 執行時需要,才能將來源資料庫的變更套用至目標 |
後續步驟
- 請參閱 Replication API 參考資料。
- 請參閱複寫的資料類型對應。