本頁說明下列用途的最佳做法:
- 使用者在 BigQuery 中有現有資料表,需要使用變更資料擷取 (CDC) 將資料複製到同一個 BigQuery 資料表。
- 使用者需要將資料複製到現有的 BigQuery 資料表,但因為時間或產品限制,無法使用 Datastream 回填功能。
問題
使用 BigQuery Storage Write API 填入資料的 BigQuery 資料表,不允許執行一般資料操縱語言 (DML) 作業。也就是說,一旦 CDC 串流開始將資料寫入 BigQuery 資料表,就無法再新增資料表中預先填入的歷史資料。
請參考下列情境:
- 時間戳記 1:啟動資料表複製作業。
- 時間戳記 2:複製資料表時,來源的 DML 作業會導致資料變更 (新增、更新或移除資料列)。
- 時間戳記 3:啟動 CDC,但系統不會擷取 時間戳記 2 期間發生的變更,導致資料不一致。
解決方案
為確保資料完整性,CDC 程序必須擷取來源中所有變更,這些變更發生在上次更新後,而上次更新已複製到 BigQuery 資料表。
以下解決方案可確保 CDC 程序擷取 TIMESTAMP 2 的所有變更,且不會阻礙複製作業將資料寫入 BigQuery 資料表。
必要條件
- BigQuery 中的目標資料表必須與 Datastream 建立的資料表具有完全相同的結構定義和設定。您可以使用 Datastream BigQuery 遷移工具包完成這項作業。
- 如果是 MySQL 和 Oracle 來源,使用者必須能夠在啟動複製作業時,識別記錄檔位置。
- 資料庫必須有足夠的儲存空間和記錄保留政策,才能完成表格複製程序。
MySQL 和 Oracle 來源
- 建立串流,但不要啟動要用於持續 CDC 複寫的串流。串流必須處於「已建立」狀態。
- 準備好開始複製資料表作業時,請找出資料庫目前的記錄位置:
- 如為 MySQL,請參閱 MySQL 說明文件,瞭解如何取得複製作業的二進位記錄座標。找出記錄檔位置後,請關閉工作階段,釋放資料庫上的所有鎖定。
- 如為 Oracle,請執行下列查詢:
SELECT current_scn FROM V$DATABASE
- 將來源資料庫中的資料表複製到 BigQuery。
- 複製作業完成後,請按照「管理串流」頁面中的步驟操作,從先前識別的記錄位置啟動串流。
PostgreSQL 來源
- 準備好開始複製資料表時,請建立複製時段。 詳情請參閱「設定來源 PostgreSQL 資料庫」。
- 將來源資料庫中的資料表複製到 BigQuery。
- 複製作業完成後,即可建立並開始直播。