Elaborazione dell'importazione di Change Data Capture (CDC)

Questa pagina ti guida nell'importazione di Change Data Capture (CDC) all'interno di Google Cloud Cortex Framework in BigQuery. BigQuery è progettato per archiviare e analizzare in modo efficiente i nuovi dati.

Procedura CDC

Quando i dati cambiano nel sistema di dati di origine (come SAP), BigQuery non modifica i record esistenti. Invece, le informazioni aggiornate vengono aggiunte come nuovo record. Per evitare duplicati, in seguito deve essere applicata un'operazione di unione. Questo processo è chiamato importazione Change Data Capture (CDC).

Data Foundation for SAP include l'opzione per creare script per Cloud Composer o Apache Airflow per unire o upsert i nuovi record risultanti dagli aggiornamenti e conservare solo l'ultima versione in un nuovo set di dati. Affinché questi script funzionino, le tabelle devono avere alcuni campi specifici:

  • operation_flag: questo flag indica allo script se un record è stato inserito, aggiornato o eliminato.
  • recordstamp: questo timestamp consente di identificare la versione più recente di un record. Questo flag indica se il record è:
    • Inserito (I)
    • Aggiornamento (U)
    • Eliminato (D)

Utilizzando l'elaborazione CDC, puoi assicurarti che i dati BigQuery riflettano con precisione lo stato più recente del sistema di origine. In questo modo vengono eliminate le voci duplicate e viene fornita una base affidabile per l'analisi dei dati.

Struttura del set di dati

Per tutte le origini dati supportate, i dati dei sistemi upstream vengono prima replicati in un set di dati BigQuery (source o replicated dataset) e i risultati aggiornati o uniti vengono inseriti in un altro set di dati (set di dati CDC). Le visualizzazioni dei report selezionano i dati dal set di dati CDC, per garantire che gli strumenti e le applicazioni di reporting abbiano sempre l'ultima versione di una tabella.

Il seguente flusso mostra come viene elaborata la CDC per SAP, a seconda di operational_flag e recordstamp.

Esempio di elaborazione CDC per SAP

Figura 1. Esempio di elaborazione CDC per SAP.

Il seguente flusso mostra l'integrazione dalle API nei dati non elaborati e l'elaborazione CDC per Salesforce, a seconda dei campi Id e SystemModStamp prodotti dalle API Salesforce.

Integrazione delle API nell'elaborazione dei dati non elaborati e di CDC per Salesforce

Figura 2. Integrazione dalle API nell'elaborazione di dati non elaborati e CDC per Salesforce.

Alcuni strumenti di replica possono unire o aggiornare i record durante l'inserimento in BigQuery, quindi la generazione di questi script è facoltativa. In questo caso, la configurazione ha un solo set di dati. Il set di dati dei report recupera i record aggiornati per la generazione di report da questo set di dati.