Pemrosesan penyerapan Change Data Capture (CDC)

Halaman ini memandu Anda melalui penyerapan Change Data Capture (CDC) dalam Google Cloud Cortex Framework di BigQuery. BigQuery dirancang untuk menyimpan dan menganalisis data baru secara efisien.

Proses CDC

Saat data berubah dalam sistem data sumber Anda (seperti SAP), BigQuery tidak mengubah data yang ada. Sebagai gantinya, informasi yang diperbarui ditambahkan sebagai data baru. Untuk menghindari duplikat, operasi penggabungan perlu diterapkan setelahnya. Proses ini disebut penyerapan Change Data Capture (CDC).

Data Foundation for SAP mencakup opsi untuk membuat skrip untuk Managed Service for Apache Airflow atau Apache Airflow untuk menggabungkan atau upsert data baru yang dihasilkan dari pembaruan dan hanya menyimpan versi terbaru dalam set data baru. Agar skrip ini berfungsi, tabel harus memiliki beberapa kolom tertentu:

  • operation_flag: Flag ini memberi tahu skrip apakah data disisipkan, diperbarui, atau dihapus.
  • recordstamp: Stempel waktu ini membantu mengidentifikasi versi data terbaru. Flag ini menunjukkan apakah data:
    • Disisipkan (I)
    • Diperbarui (U)
    • Dihapus (D)

Dengan memanfaatkan pemrosesan CDC, Anda dapat memastikan bahwa data BigQuery secara akurat mencerminkan status terbaru sistem sumber Anda. Hal ini akan menghilangkan entri duplikat dan memberikan dasar yang andal untuk analisis data Anda.

Struktur set data

Untuk semua sumber data yang didukung, data dari sistem hulu pertama-tama direplikasi ke dalam set data BigQuery (source atau replicated dataset), dan hasil yang diperbarui atau digabungkan akan disisipkan ke dalam set data lain (set data CDC). Tampilan pelaporan memilih data dari set data CDC, untuk memastikan alat dan aplikasi pelaporan selalu memiliki versi tabel terbaru.

Alur berikut menunjukkan cara pemrosesan CDC untuk SAP, yang bergantung pada operational_flag dan recordstamp.

Contoh pemrosesan CDC untuk SAP

Gambar 1. Contoh pemrosesan CDC untuk SAP.

Alur berikut menggambarkan integrasi dari API ke Data mentah dan pemrosesan CDC untuk Salesforce, yang bergantung pada kolom Id dan SystemModStamp yang dihasilkan oleh Salesforce API.

Integrasi dari API ke pemrosesan Data mentah dan CDC untuk Salesforce

Gambar 2. Integrasi dari API ke Data mentah dan pemrosesan CDC untuk Salesforce.

Beberapa alat replikasi dapat menggabungkan atau meng-upsert data saat menyisipkannya ke BigQuery, sehingga pembuatan skrip ini bersifat opsional. Dalam hal ini, penyiapan hanya memiliki satu set data. Set data pelaporan mengambil data yang diperbarui untuk pelaporan dari set data tersebut.