本页介绍了以下用例的最佳实践:
- 用户在 BigQuery 中有一个现有表,需要使用变更数据捕获 (CDC) 将数据复制到同一 BigQuery 表中。
- 用户需要将数据复制到现有的 BigQuery 表中,但由于时间或产品限制,无法使用 Datastream 回填功能。
问题
使用 BigQuery Storage Write API 填充的 BigQuery 表不允许执行常规数据操纵语言 (DML) 操作。这意味着,一旦 CDC 流开始写入 BigQuery 表,就无法添加尚未预先填充到表中的历史数据。
请考虑以下场景:
- 时间戳 1:启动表复制操作。
- 时间戳 2:在复制表期间,源中的 DML 操作会导致数据发生更改(添加、更新或移除行)。
- 时间戳 3:启动 CDC,但未捕获时间戳 2 中发生的更改,导致数据不一致。
解决方案
为确保数据完整性,CDC 流程必须捕获源中自上次更新(已复制到 BigQuery 表中)后立即发生的所有更改。
以下解决方案可确保 CDC 进程捕获 TIMESTAMP 2 之后的所有更改,而不会阻止复制操作将数据写入 BigQuery 表。
前提条件
- BigQuery 中的目标表必须具有与 Datastream 创建的表完全相同的架构和配置。您可以使用 Datastream BigQuery 迁移工具包来完成此操作。
- 对于 MySQL 和 Oracle 源,用户必须能够识别启动复制操作时的日志位置。
- 数据库必须有足够的存储空间和日志保留政策,以允许表复制过程完成。
MySQL 和 Oracle 来源
- 创建但不启动您打算用于持续 CDC 复制的数据流。数据流需要处于 CREATED 状态。
- 准备好开始执行表复制操作后,请确定数据库的当前日志位置:
- 对于 MySQL,请参阅 MySQL 文档,了解如何获取复制二进制日志坐标。确定日志位置后,关闭会话以释放数据库上的所有锁定。
- 对于 Oracle,请运行以下查询:
SELECT current_scn FROM V$DATABASE
- 将表从源数据库复制到 BigQuery。
- 复制操作完成后,按照管理数据流页面中所述的步骤,从您之前确定的日志位置开始数据流。
PostgreSQL 来源
- 准备好开始复制表后,请创建复制槽。 如需了解详情,请参阅配置源 PostgreSQL 数据库。
- 将表从源数据库复制到 BigQuery。
- 复制操作完成后,创建并开始直播。