Pemrosesan penyerapan Change Data Capture (CDC)

Halaman ini memandu Anda melakukan penyerapan Change Data Capture (CDC) dalam Google Cloud Cortex Framework di BigQuery. BigQuery dirancang untuk menyimpan dan menganalisis data baru secara efisien.

Proses CDC

Saat data berubah di sistem data sumber Anda (seperti SAP), BigQuery tidak mengubah data yang ada. Sebagai gantinya, informasi yang diperbarui ditambahkan sebagai data baru. Untuk menghindari duplikat, operasi penggabungan perlu diterapkan setelahnya. Proses ini disebut penyerapan Change Data Capture (CDC).

Data Foundation untuk SAP mencakup opsi untuk membuat skrip bagi Cloud Composer atau Apache Airflow untuk menggabungkan atau upsert rekaman baru yang dihasilkan dari pembaruan dan hanya menyimpan versi terbaru dalam set data baru. Agar skrip ini berfungsi, tabel harus memiliki beberapa kolom tertentu:

  • operation_flag: Flag ini memberi tahu skrip apakah data dimasukkan, diperbarui, atau dihapus.
  • recordstamp: Stempel waktu ini membantu mengidentifikasi versi terbaru dari suatu catatan. Flag ini menunjukkan apakah data:
    • Disisipkan (I)
    • Diperbarui (U)
    • Dihapus (D)

Dengan memanfaatkan pemrosesan CDC, Anda dapat memastikan bahwa data BigQuery Anda secara akurat mencerminkan status terbaru sistem sumber Anda. Hal ini menghilangkan entri duplikat dan memberikan fondasi yang andal untuk analisis data Anda.

Struktur set data

Untuk semua sumber data yang didukung, data dari sistem upstream pertama-tama direplikasi ke dalam set data BigQuery (source atau replicated dataset), dan hasil yang diperbarui atau digabungkan dimasukkan ke dalam set data lain (set data CDC). Tampilan pelaporan memilih data dari set data CDC, untuk memastikan alat dan aplikasi pelaporan selalu memiliki versi tabel terbaru.

Alur berikut menunjukkan cara pemrosesan CDC untuk SAP, bergantung pada operational_flag dan recordstamp.

Contoh pemrosesan CDC untuk SAP

Gambar 1. Contoh pemrosesan CDC untuk SAP.

Alur berikut menggambarkan integrasi dari API ke Pemrosesan CDC dan Data mentah untuk Salesforce, bergantung pada kolom Id dan SystemModStamp yang dihasilkan oleh Salesforce API.

Integrasi dari API ke Pemrosesan data mentah dan CDC untuk Salesforce

Gambar 2. Integrasi dari API ke dalam pemrosesan Data mentah dan CDC untuk Salesforce.

Beberapa alat replikasi dapat menggabungkan atau meng-upsert data saat memasukkannya ke BigQuery, sehingga pembuatan skrip ini bersifat opsional. Dalam hal ini, penyiapan hanya memiliki satu set data. Set data pelaporan mengambil rekaman yang diperbarui untuk pelaporan dari set data tersebut.