Usar o Datastream com uma tabela atual do BigQuery

Esta página descreve as práticas recomendadas para casos de uso em que:

  • Os usuários têm uma tabela no BigQuery e precisam replicar os dados usando a captura de dados de alterações (CDC) na mesma tabela do BigQuery.
  • Os usuários precisam copiar dados para uma tabela do BigQuery sem usar o recurso de preenchimento retroativo do Datastream, seja pelo tempo que isso levaria ou por limitações do produto.

Problema

Uma tabela do BigQuery preenchida usando a API BigQuery Storage Write não permite operações regulares da linguagem de manipulação de dados (DML). Isso significa que, depois que um fluxo de CDC começa a gravar em uma tabela do BigQuery, não é possível adicionar dados históricos que ainda não estavam pré-preenchidos na tabela.

Pense no seguinte cenário:

  1. TIMESTAMP 1: a operação de cópia da tabela é iniciada.
  2. TIMESTAMP 2: enquanto a tabela está sendo copiada, as operações DML na origem resultam em mudanças nos dados (linhas são adicionadas, atualizadas ou removidas).
  3. TIMESTAMP 3: o CDC é iniciado, mas as mudanças que ocorreram em TIMESTAMP 2 não são capturadas, resultando em discrepância de dados.

Solução

Para garantir a integridade dos dados, o processo de CDC precisa capturar todas as mudanças na origem que ocorreram desde o momento imediatamente após a última atualização copiada para a tabela do BigQuery.

A solução a seguir permite garantir que o processo de CDC capture todas as mudanças de TIMESTAMP 2, sem bloquear a operação de cópia de gravação de dados na tabela do BigQuery.

Pré-requisitos

  • A tabela de destino no BigQuery precisa ter exatamente o mesmo esquema e configuração como se tivesse sido criada pelo Datastream. Para isso, use o Datastream BigQuery Migration Toolkit.
  • Para fontes MySQL e Oracle, o usuário precisa identificar a posição do registro no momento em que a operação de cópia é iniciada.
  • O banco de dados precisa ter armazenamento suficiente e uma política de retenção de registros para permitir que o processo de cópia da tabela seja concluído.

Fontes MySQL e Oracle

  1. Crie, mas não inicie o stream que você pretende usar para a replicação contínua de CDC. O stream precisa estar no estado CREATED.
  2. Quando estiver tudo pronto para iniciar a operação de cópia da tabela, identifique a posição atual do registro do banco de dados:
    • Para o MySQL, consulte a documentação do MySQL para saber como obter as coordenadas do registro binário de replicação. Depois de identificar a posição do registro, feche a sessão para liberar os bloqueios no banco de dados.
    • Para o Oracle, execute a seguinte consulta: SELECT current_scn FROM V$DATABASE
  3. Copie a tabela do banco de dados de origem para o BigQuery.
  4. Depois que a operação de cópia for concluída, siga as etapas descritas na página Gerenciar fluxos para iniciar o fluxo da posição do registro que você identificou anteriormente.

Fontes do PostgreSQL

  1. Quando estiver tudo pronto para começar a copiar a tabela, crie o slot de replicação. Para mais informações, consulte Configurar um banco de dados PostgreSQL de origem.
  2. Copie a tabela do banco de dados de origem para o BigQuery.
  3. Quando a operação de cópia for concluída, crie e inicie a transmissão.