Verarbeitung der Change Data Capture (CDC)-Erfassung

Auf dieser Seite erfahren Sie mehr über die Change Data Capture (CDC)-Erfassung in Google Cloud Cortex Framework in BigQuery. BigQuery wurde für die effiziente Speicherung und Analyse neuer Daten entwickelt.

CDC-Prozess

Wenn sich Daten in Ihrem Quelldatensystem (z. B. SAP) ändern, werden in BigQuery keine vorhandenen Datensätze geändert. Stattdessen werden die aktualisierten Informationen als neuer Datensatz hinzugefügt. Um Duplikate zu vermeiden, muss anschließend ein Zusammenführungsvorgang angewendet werden. Dieser Prozess wird als Change Data Capture (CDC)-Erfassung bezeichnet.

Die Data Foundation for SAP bietet die Möglichkeit, Skripts für Managed Service for Apache Airflow oder Apache Airflow zu erstellen, um die neuen Datensätze, die durch Aktualisierungen entstehen, zusammenzuführen oder upsert und nur die neueste Version in einem neuen Dataset zu behalten. Damit diese Skripts funktionieren, müssen die Tabellen bestimmte Felder enthalten:

  • operation_flag: Dieses Flag teilt dem Skript mit, ob ein Datensatz eingefügt, aktualisiert oder gelöscht wurde.
  • recordstamp: Dieser Zeitstempel hilft dabei, die neueste Version eines Datensatzes zu identifizieren. Dieses Flag gibt an, ob der Datensatz:
    • Eingefügt (I)
    • Aktualisiert (U)
    • Gelöscht (D)

Durch die Verwendung der CDC-Verarbeitung können Sie sicherstellen, dass Ihre BigQuery-Daten den neuesten Stand Ihres Quellsystems widerspiegeln. So werden doppelte Einträge vermieden und eine zuverlässige Grundlage für Ihre Datenanalyse geschaffen.

Dataset-Struktur

Bei allen unterstützten Datenquellen werden Daten aus Upstream-Systemen zuerst in ein BigQuery-Dataset (source oder replicated dataset) repliziert und die aktualisierten oder zusammengeführten Ergebnisse in ein anderes Dataset (CDC-Dataset) eingefügt. Die Berichtsansichten wählen Daten aus dem CDC-Dataset aus, damit die Berichtstools und -anwendungen immer die neueste Version einer Tabelle verwenden.

Der folgende Ablauf zeigt, wie die CDC-Verarbeitung für SAP in Abhängigkeit von operational_flag und recordstamp funktioniert.

Beispiel für die CDC-Verarbeitung für SAP

Abbildung 1. Beispiel für die CDC-Verarbeitung für SAP.

Der folgende Ablauf zeigt die Integration von APIs in Rohdaten und die CDC-Verarbeitung für Salesforce in Abhängigkeit von den Feldern Id und SystemModStamp, die von Salesforce-APIs generiert werden.

Integration von APIs in die Verarbeitung von Rohdaten und CDC für Salesforce

Abbildung 2. Integration von APIs in Rohdaten und CDC-Verarbeitung für Salesforce.

Einige Replikationstools können die Datensätze zusammenführen oder aktualisieren, wenn sie in BigQuery eingefügt werden. Daher ist die Generierung dieser Skripts optional. In diesem Fall enthält die Einrichtung nur ein einziges Dataset. Das Berichtsdataset ruft aktualisierte Datensätze für die Berichterstellung aus diesem Dataset ab.