将 CDC 表迁移到其他区域

本页介绍了以下使用情形的最佳实践：您已设置 Datastream 复制到 BigQuery，但目标数据集配置在错误的区域中。然后，您希望将数据集迁移到另一个区域（或多区域），而无需将源数据库中的所有数据重新同步到 BigQuery。

准备工作

在开始将数据迁移到其他区域之前，请考虑以下事项：

迁移需要时间，您必须在迁移期间暂时暂停直播。为保持数据完整性，当数据流暂停时，源数据库必须保留更改日志。如需估算暂停流的时长，请将数据集中的 max_staleness 值与运行时间最长的合并操作相结合：
- 如需了解合并操作可能需要多长时间才能完成，请参阅建议的表 max_staleness 值。
- 如需查找数据集中的最大 max_staleness，请参阅确定表的当前 max_staleness 值，并根据您的具体需求调整查询。
- 如果估计的暂停时间过长，导致源数据库无法支持，您可能需要考虑暂时减小数据集中表的 max_staleness 值。
验证执行迁移的用户在目标区域中是否拥有足够的 BigQuery 资源（查询预留和后台预留）。如需详细了解预留，请参阅预留分配。
验证执行迁移的用户是否拥有足够的权限来执行此操作，例如 Identity and Access Management (IAM) 控制或 VPC Service Controls。

迁移步骤

如需启动数据集迁移，请使用 BigQuery 数据复制：

在 Google Cloud 控制台中，前往 BigQuery Studio 页面。

进入 BigQuery Studio
在新区域中创建 BigQuery 数据集副本：
```
ALTER SCHEMA DATASET_NAME
ADD REPLICA 'NEW_REGION'
OPTIONS(location='NEW_REGION');
```
替换以下内容：
- DATASET_NAME：您要创建的数据集的名称。
- NEW_REGION：您要创建数据集的区域的名称。例如 region-us。
监控迁移进度，并等待，直到副本中的复制水印与主数据库相差几分钟。您可以在 BigQuery INFORMATION_SCHEMA 上运行以下查询，以检查迁移进度：
```
SELECT
catalog_name as project_id,
schema_name as dataset_name,
replication_time as dataset_replica_staleness
FROM
'NEW_REGION'.INFORMATION_SCHEMA.SCHEMATA_REPLICAS
WHERE
catalog_name = PROJECT_ID
AND schema_name = DATASET_NAME
AND location = NEW_REGION;
```
替换以下内容：
- PROJECT_ID：您的 Google Cloud 项目的 ID。
- DATASET_NAME：您的数据集的名称。
- DATASET_REPLICA_STALENESS：您创建的数据集副本中表的过时性配置。
- NEW_REGION：您创建数据集的区域。
暂停现有的 Datastream 数据流。如需了解详情，请参阅暂停直播。
等待视频流排空，并记下视频流进入 PAUSED 状态的时间。
通过检查 BigQuery 表的 upsert_stream_apply_watermark，确认最新的 CDC 更改已应用于该表。运行以下查询，并确保水位时间戳比暂停流的时间晚 10 分钟：
```
SELECT table_name, upsert_stream_apply_watermark
FROM DATASET_NAME.INFORMATION_SCHEMA.TABLES
```
如需仅针对特定表运行查询，请添加以下 WHERE 子句：
```
WHERE table_name = 'TABLE_NAME'
```
替换以下内容：
- DATASET_NAME：您的数据集的名称。
- TABLE_NAME：可选。您要检查 upsert_stream_apply_watermark 的表。
使用第 3 步中的查询验证新区域复制水印是否晚于第 6 步中捕获的 upsert_stream_apply_watermark。
（可选）手动比较原始区域中主数据集内的几个表与新区域中的副本，以验证所有数据是否都已正确复制。
在 BigQuery Studio 中运行以下命令，以提升 BigQuery 数据集副本：
```
ALTER SCHEMA DATASET_NAME
SET OPTIONS(primary_replica = 'NEW_REGION');
```
替换以下内容：
- DATASET_NAME：您的数据集的名称。
- NEW_REGION：您创建数据集的区域。
（可选）如果您不再需要原始数据集（现在是副本），并且不想产生额外费用，请前往 BigQuery Studio 并删除原始 BigQuery 数据集：
```
ALTER SCHEMA DATASET_NAME DROP REPLICA IF EXISTS ORIGINAL_REGION;
```
替换以下内容：
- DATASET_NAME：原始数据集的名称。
- ORIGINAL_REGION：原始数据集的区域。
创建具有完全相同配置但具有新的 BigQuery 目标位置的新数据流。
开始新的直播。

为防止复制重复事件，请从特定位置开始流式传输：
- 对于 MySQL 和 Oracle 源：您可以通过检查原始数据流的日志来确定日志位置，并找到数据流成功读取的最后一个位置。如需了解如何从特定位置开始播放视频流，请参阅管理视频流。
- 对于 PostgreSQL 源：新数据流开始从复制槽中的第一个日志序列号 (LSN) 读取更改。由于原始数据流可能已处理了部分更改，因此请手动将复制槽的指针更改为 Datastream 读取的最后一个 LSN。您可以在 Datastream 使用者日志中找到此 LSN。
（可选）删除原始数据流。

将 CDC 表迁移到其他区域 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

准备工作

迁移步骤

将 CDC 表迁移到其他区域