Processamento de ingestão de captura de dados alterados (CDC)
Esta página orienta você na ingestão de captura de dados alterados (CDC) no Google Cloud Cortex Framework no BigQuery. O BigQuery foi projetado para armazenar e analisar novos dados com eficiência.
Processo de CDC
Quando os dados mudam no sistema de dados de origem (como o SAP), o BigQuery não modifica os registros atuais. Em vez disso, as informações atualizadas são adicionadas como um novo registro. Para evitar duplicatas, uma operação de mesclagem precisa ser aplicada depois. Esse processo é chamado de ingestão de captura de dados alterados (CDC).
A Data Foundation para SAP inclui a opção de criar scripts para o Cloud Composer ou o Apache Airflow para mesclar ou upsert os novos registros resultantes de atualizações e manter apenas a versão mais recente em um novo conjunto de dados. Para que esses scripts funcionem, as tabelas precisam ter alguns campos específicos:
operation_flag: essa flag informa ao script se um registro foi inserido, atualizado ou excluído.recordstamp: esse carimbo de data/hora ajuda a identificar a versão mais recente de um registro. Essa flag indica se o registro é:- Inserido (I)
- Atualizado (U)
- Excluído (D)
Ao usar o processamento de CDC, você garante que os dados do BigQuery reflitam com precisão o estado mais recente do sistema de origem. Isso elimina entradas duplicadas e oferece uma base confiável para sua análise de dados.
Estrutura do conjunto de dados
Para todas as fontes de dados compatíveis, os dados dos sistemas upstream são replicados primeiro em um conjunto de dados do BigQuery (source ou replicated dataset), e os resultados atualizados ou mesclados são inseridos em outro conjunto de dados (conjunto de dados de CDC). As visualizações de relatórios selecionam dados do conjunto de dados de CDC para garantir que as ferramentas e os aplicativos de relatórios sempre tenham a versão mais recente de uma tabela.
O fluxo a seguir mostra como o processamento de CDC para SAP depende do operational_flag e do recordstamp.

O fluxo a seguir descreve a integração de APIs em dados brutos e o processamento de CDC para o Salesforce, dependendo dos campos Id e SystemModStamp produzidos pelas APIs do Salesforce.

Algumas ferramentas de replicação podem mesclar ou fazer upsert dos registros ao inseri-los no BigQuery. Portanto, a geração desses scripts é opcional. Nesse caso, a configuração tem apenas um conjunto de dados. O conjunto de dados de relatórios busca registros atualizados para relatórios desse conjunto de dados.