Elaborazione dell'importazione di Change Data Capture (CDC)
Questa pagina ti guida attraverso l'importazione di Change Data Capture (CDC) in Google Cloud Cortex Framework in BigQuery. BigQuery è progettato per archiviare e analizzare in modo efficiente i nuovi dati.
Processo CDC
Quando i dati cambiano nel sistema di dati di origine (ad esempio SAP), BigQuery non modifica i record esistenti. Al contrario, le informazioni aggiornate vengono aggiunte come nuovo record. Per evitare duplicati, è necessario applicare un'operazione di unione in un secondo momento. Questo processo è chiamato importazione di Change Data Capture (CDC).
Data Foundation for SAP include l'opzione per creare script per
Managed Service for Apache Airflow o Apache Airflow per unire
o upsert i nuovi record risultanti dagli aggiornamenti e conservare solo l'
ultima versione in un nuovo set di dati. Affinché questi script funzionino, le tabelle devono avere alcuni campi specifici:
operation_flag: questo flag indica allo script se un record è stato inserito, aggiornato o eliminato.recordstamp: questo timestamp aiuta a identificare la versione più recente di un record. Questo flag indica se il record è:- Inserito (I)
- Aggiornato (U)
- Eliminato (D)
Utilizzando l'elaborazione CDC, puoi assicurarti che i dati di BigQuery riflettano accuratamente lo stato più recente del sistema di origine. In questo modo si eliminano le voci duplicate e si fornisce una base affidabile per l'analisi dei dati.
Struttura del set di dati
Per tutte le origini dati supportate, i dati dei sistemi upstream vengono prima replicati in un set di dati BigQuery (source o replicated dataset) e i risultati aggiornati o uniti vengono inseriti in un altro set di dati (set di dati CDC). Le visualizzazioni di reporting selezionano i dati dal set di dati CDC per garantire che gli strumenti e le applicazioni di reporting abbiano sempre l'ultima versione di una tabella.
Il seguente flusso mostra come l'elaborazione CDC per SAP, a seconda di operational_flag e recordstamp.

Il seguente flusso illustra l'integrazione dalle API ai dati non elaborati e l'elaborazione CDC per Salesforce, a seconda dei campi Id e SystemModStamp prodotti dalle API di Salesforce.

Alcuni strumenti di replica possono unire o eseguire l'upsert dei record quando li inseriscono in BigQuery, quindi la generazione di questi script è facoltativa. In questo caso, la configurazione ha un solo set di dati. Il set di dati di reporting recupera i record aggiornati per il reporting da quel set di dati.