搭配現有的 BigQuery 資料表使用 Datastream

本頁說明下列用途的最佳做法:

  • 使用者在 BigQuery 中有現有資料表,需要使用變更資料擷取 (CDC) 將資料複製到同一個 BigQuery 資料表。
  • 使用者需要將資料複製到現有的 BigQuery 資料表,但因為時間或產品限制,無法使用 Datastream 回填功能。

問題

使用 BigQuery Storage Write API 填入資料的 BigQuery 資料表,不允許執行一般資料操縱語言 (DML) 作業。也就是說,一旦 CDC 串流開始將資料寫入 BigQuery 資料表,就無法再新增資料表中預先填入的歷史資料。

請參考下列情境:

  1. 時間戳記 1:啟動資料表複製作業。
  2. 時間戳記 2:複製資料表時,來源的 DML 作業會導致資料變更 (新增、更新或移除資料列)。
  3. 時間戳記 3:啟動 CDC,但系統不會擷取 時間戳記 2 期間發生的變更,導致資料不一致。

解決方案

為確保資料完整性,CDC 程序必須擷取來源中所有變更,這些變更發生在上次更新後,而上次更新已複製到 BigQuery 資料表。

以下解決方案可確保 CDC 程序擷取 TIMESTAMP 2 的所有變更,且不會阻礙複製作業將資料寫入 BigQuery 資料表。

必要條件

  • BigQuery 中的目標資料表必須與 Datastream 建立的資料表具有完全相同的結構定義和設定。您可以使用 Datastream BigQuery 遷移工具包完成這項作業。
  • 如果是 MySQL 和 Oracle 來源,使用者必須能夠在啟動複製作業時,識別記錄檔位置。
  • 資料庫必須有足夠的儲存空間和記錄保留政策,才能完成表格複製程序。

MySQL 和 Oracle 來源

  1. 建立串流,但不要啟動要用於持續 CDC 複寫的串流。串流必須處於「已建立」狀態。
  2. 準備好開始複製資料表作業時,請找出資料庫目前的記錄位置:
    • 如為 MySQL,請參閱 MySQL 說明文件,瞭解如何取得複製作業的二進位記錄座標。找出記錄檔位置後,請關閉工作階段,釋放資料庫上的所有鎖定。
    • 如為 Oracle,請執行下列查詢:SELECT current_scn FROM V$DATABASE
  3. 將來源資料庫中的資料表複製到 BigQuery。
  4. 複製作業完成後,請按照「管理串流」頁面中的步驟操作,從先前識別的記錄位置啟動串流。

PostgreSQL 來源

  1. 準備好開始複製資料表時,請建立複製時段。 詳情請參閱「設定來源 PostgreSQL 資料庫」。
  2. 將來源資料庫中的資料表複製到 BigQuery。
  3. 複製作業完成後,即可建立並開始直播。