Processamento de ingestão da Captura de Dados Alterados (CDC)
Esta página orienta você no processo de ingestão da Captura de Dados Alterados (CDC) no Google Cloud Cortex Framework no BigQuery. O BigQuery foi projetado para armazenar e analisar novos dados com eficiência.
Processo de CDC
Quando os dados mudam no sistema de dados de origem (como o SAP), o BigQuery não modifica os registros atuais. Em vez disso, as informações atualizadas são adicionadas como um novo registro. Para evitar duplicados, uma operação de mesclagem precisa ser aplicada depois. Esse processo é chamado ingestão da Captura de Dados Alterados (CDC).
A Data Foundation para SAP inclui a opção de criar scripts para
o Serviço Gerenciado para Apache Airflow ou Apache Airflow para mesclar
ou upsert os novos registros resultantes de atualizações e manter apenas a
versão mais recente em um novo conjunto de dados. Para que esses scripts funcionem, as tabelas precisam ter alguns campos específicos:
operation_flag: esse flag informa ao script se um registro foi inserido, atualizado ou excluído.recordstamp: esse carimbo de data/hora ajuda a identificar a versão mais recente de um registro. Esse flag indica se o registro é:- Inserido (I)
- Atualizado (U)
- Excluído (D)
Ao usar o processamento de CDC, você garante que os dados do BigQuery reflitam com precisão o estado mais recente do sistema de origem. Isso elimina entradas duplicadas e oferece uma base confiável para a análise de dados.
Estrutura do conjunto de dados
Para todas as fontes de dados compatíveis, os dados dos sistemas upstream são replicados primeiro em um conjunto de dados do BigQuery (source ou replicated dataset), e os resultados atualizados ou mesclados são inseridos em outro conjunto de dados (conjunto de dados de CDC). As visualizações de relatórios selecionam dados do conjunto de dados de CDC para garantir que as ferramentas e aplicativos de relatórios sempre tenham a versão mais recente de uma tabela.
O fluxo a seguir mostra como o processamento de CDC para SAP depende do operational_flag e do recordstamp.

O fluxo a seguir descreve a integração de APIs em dados brutos e o processamento de CDC para Salesforce, dependente dos campos Id e SystemModStamp produzidos pelas APIs do Salesforce.

Algumas ferramentas de replicação podem mesclar ou inserir os registros ao inseri-los no BigQuery. Portanto, a geração desses scripts é opcional. Nesse caso, a configuração tem apenas um conjunto de dados. O conjunto de dados de relatórios busca registros atualizados para relatórios desse conjunto de dados.