Verarbeitung von CDC-Aufnahmen
Auf dieser Seite wird beschrieben, wie Sie Change Data Capture (CDC) in das Google Cloud Cortex Framework in BigQuery aufnehmen. BigQuery wurde für das effiziente Speichern und Analysieren neuer Daten entwickelt.
CDC-Prozess
Wenn sich Daten in Ihrem Quelldatensystem (z. B. SAP) ändern, werden vorhandene Datensätze in BigQuery nicht geändert. Stattdessen werden die aktualisierten Informationen als neuer Datensatz hinzugefügt. Um Duplikate zu vermeiden, muss anschließend ein Zusammenführungs-Vorgang angewendet werden. Dieser Vorgang wird als CDC-Aufnahme (Change Data Capture) bezeichnet.
Die Data Foundation for SAP bietet die Möglichkeit, Skripts für Cloud Composer oder Apache Airflow zu erstellen, um die neuen Datensätze aus Updates zusammenzuführen oder upsert und nur die neueste Version in einem neuen Dataset beizubehalten. Damit diese Skripts funktionieren, müssen die Tabellen bestimmte Felder enthalten:
operation_flag: Dieses Flag gibt an, ob ein Datensatz eingefügt, aktualisiert oder gelöscht wurde.recordstamp: Dieser Zeitstempel hilft dabei, die aktuelle Version eines Datensatzes zu identifizieren. Dieses Flag gibt an, ob der Datensatz Folgendes ist:- Eingefügt (I)
- Aktualisiert (U)
- Gelöscht (D)
Durch die Verwendung der CDC-Verarbeitung können Sie dafür sorgen, dass Ihre BigQuery-Daten den aktuellen Status Ihres Quellsystems widerspiegeln. So werden doppelte Einträge vermieden und eine zuverlässige Grundlage für Ihre Datenanalyse geschaffen.
Dataset-Struktur
Bei allen unterstützten Datenquellen werden Daten aus Upstream-Systemen zuerst in ein BigQuery-Dataset (source oder replicated dataset) repliziert. Die aktualisierten oder zusammengeführten Ergebnisse werden dann in ein anderes Dataset (CDC-Dataset) eingefügt. In den Berichtsansichten werden Daten aus dem CDC-Dataset ausgewählt, damit die Berichterstellungstools und -anwendungen immer die aktuelle Version einer Tabelle verwenden.
Der folgende Ablauf zeigt, wie die CDC-Verarbeitung für SAP in Abhängigkeit von operational_flag und recordstamp funktioniert.

Der folgende Ablauf zeigt die Integration von APIs in die Verarbeitung von Rohdaten und CDC für Salesforce, abhängig von den Feldern Id und SystemModStamp, die von Salesforce-APIs generiert werden.

Einige Replikationstools können die Datensätze beim Einfügen in BigQuery zusammenführen oder aktualisieren. Die Generierung dieser Skripts ist daher optional. In diesem Fall gibt es nur ein Dataset. Das Berichts-Dataset ruft aktualisierte Datensätze für die Berichterstellung aus diesem Dataset ab.