Pemrosesan penyerapan Change Data Capture (CDC)
Halaman ini memandu Anda melakukan penyerapan Change Data Capture (CDC) dalam Google Cloud Cortex Framework di BigQuery. BigQuery dirancang untuk menyimpan dan menganalisis data baru secara efisien.
Proses CDC
Saat data berubah di sistem data sumber Anda (seperti SAP), BigQuery tidak mengubah data yang ada. Sebagai gantinya, informasi yang diperbarui ditambahkan sebagai data baru. Untuk menghindari duplikat, operasi penggabungan perlu diterapkan setelahnya. Proses ini disebut penyerapan Change Data Capture (CDC).
Data Foundation untuk SAP mencakup opsi untuk membuat skrip bagi Cloud Composer atau Apache Airflow untuk menggabungkan atau upsert rekaman baru yang dihasilkan dari pembaruan dan hanya menyimpan versi terbaru dalam set data baru. Agar skrip ini berfungsi, tabel harus memiliki beberapa kolom tertentu:
operation_flag: Flag ini memberi tahu skrip apakah data dimasukkan, diperbarui, atau dihapus.recordstamp: Stempel waktu ini membantu mengidentifikasi versi terbaru dari suatu catatan. Flag ini menunjukkan apakah data:- Disisipkan (I)
- Diperbarui (U)
- Dihapus (D)
Dengan memanfaatkan pemrosesan CDC, Anda dapat memastikan bahwa data BigQuery Anda secara akurat mencerminkan status terbaru sistem sumber Anda. Hal ini menghilangkan entri duplikat dan memberikan fondasi yang andal untuk analisis data Anda.
Struktur set data
Untuk semua sumber data yang didukung, data dari sistem upstream pertama-tama direplikasi ke dalam set data BigQuery (source atau replicated dataset), dan hasil yang diperbarui atau digabungkan dimasukkan ke dalam set data lain (set data CDC). Tampilan pelaporan memilih data dari set data CDC,
untuk memastikan alat dan aplikasi pelaporan selalu memiliki versi tabel
terbaru.
Alur berikut menunjukkan cara pemrosesan CDC untuk SAP, bergantung pada
operational_flag dan recordstamp.

Alur berikut menggambarkan integrasi dari API ke Pemrosesan CDC dan Data mentah untuk Salesforce, bergantung pada kolom Id dan SystemModStamp yang dihasilkan oleh Salesforce API.

Beberapa alat replikasi dapat menggabungkan atau meng-upsert data saat memasukkannya ke BigQuery, sehingga pembuatan skrip ini bersifat opsional. Dalam hal ini, penyiapan hanya memiliki satu set data. Set data pelaporan mengambil rekaman yang diperbarui untuk pelaporan dari set data tersebut.