Elaborazione dell'importazione di Change Data Capture (CDC)
Questa pagina ti guida nell'importazione di Change Data Capture (CDC) all'interno di Google Cloud Cortex Framework in BigQuery. BigQuery è progettato per archiviare e analizzare in modo efficiente i nuovi dati.
Procedura CDC
Quando i dati cambiano nel sistema di dati di origine (come SAP), BigQuery non modifica i record esistenti. Invece, le informazioni aggiornate vengono aggiunte come nuovo record. Per evitare duplicati, in seguito deve essere applicata un'operazione di unione. Questo processo è chiamato importazione Change Data Capture (CDC).
Data Foundation for SAP include l'opzione per creare script per
Cloud Composer o Apache Airflow per unire
o upsert i nuovi record risultanti dagli aggiornamenti e conservare solo
l'ultima versione in un nuovo set di dati. Affinché questi script funzionino, le tabelle
devono avere alcuni campi specifici:
operation_flag: questo flag indica allo script se un record è stato inserito, aggiornato o eliminato.recordstamp: questo timestamp consente di identificare la versione più recente di un record. Questo flag indica se il record è:- Inserito (I)
- Aggiornamento (U)
- Eliminato (D)
Utilizzando l'elaborazione CDC, puoi assicurarti che i dati BigQuery riflettano con precisione lo stato più recente del sistema di origine. In questo modo vengono eliminate le voci duplicate e viene fornita una base affidabile per l'analisi dei dati.
Struttura del set di dati
Per tutte le origini dati supportate, i dati dei sistemi upstream vengono prima replicati
in un set di dati BigQuery (source o replicated dataset)
e i risultati aggiornati o uniti vengono inseriti in un altro set di dati
(set di dati CDC). Le visualizzazioni dei report selezionano i dati dal set di dati CDC,
per garantire che gli strumenti e le applicazioni di reporting abbiano sempre l'ultima versione
di una tabella.
Il seguente flusso mostra come viene elaborata la CDC per SAP, a seconda di
operational_flag e recordstamp.

Il seguente flusso mostra l'integrazione dalle API nei dati non elaborati e
l'elaborazione CDC per Salesforce, a seconda dei campi Id e SystemModStamp
prodotti dalle API Salesforce.

Alcuni strumenti di replica possono unire o aggiornare i record durante l'inserimento in BigQuery, quindi la generazione di questi script è facoltativa. In questo caso, la configurazione ha un solo set di dati. Il set di dati dei report recupera i record aggiornati per la generazione di report da questo set di dati.