Procesamiento de la ingesta de Captura de datos modificados (CDC)
En esta página, se explica la ingesta de Captura de datos modificados (CDC) en Google Cloud Cortex Framework en BigQuery. BigQuery está diseñado para almacenar y analizar datos nuevos de manera eficiente.
Proceso de CDC
Cuando los datos cambian en tu sistema de datos de origen (como SAP), BigQuery no modifica los registros existentes. En cambio, la información actualizada se agrega como un registro nuevo. Para evitar duplicados, se debe aplicar una operación de combinación después. Este proceso se denomina ingesta de Captura de datos modificados (CDC).
Data Foundation for SAP incluye la opción de crear secuencias de comandos para
Managed Service para Apache Airflow o Apache Airflow para combinar
o upsert los registros nuevos que resultan de las actualizaciones y conservar solo la
versión más reciente en un conjunto de datos nuevo. Para que estas secuencias de comandos funcionen, las tablas deben tener algunos campos específicos:
operation_flag: Esta marca le indica a la secuencia de comandos si se insertó, actualizó o borró un registro.recordstamp: Esta marca de tiempo ayuda a identificar la versión más reciente de un registro. Esta marca indica si el registro es:- Insertado (I)
- Actualizado (U)
- Borrado (D)
Si utilizas el procesamiento de CDC, puedes asegurarte de que tus datos de BigQuery reflejen con precisión el estado más reciente de tu sistema de origen. Esto elimina las entradas duplicadas y proporciona una base confiable para el análisis de datos.
Estructura del conjunto de datos
Para todas las fuentes de datos compatibles, los datos de los sistemas ascendentes primero se replican en un conjunto de datos de BigQuery (source o replicated dataset) y los resultados actualizados o combinados se insertan en otro conjunto de datos (conjunto de datos de CDC). Las vistas de informes seleccionan datos del conjunto de datos de CDC para garantizar que las herramientas y aplicaciones de informes siempre tengan la versión más reciente de una tabla.
En el siguiente flujo, se muestra cómo el procesamiento de CDC para SAP depende de operational_flag y recordstamp.

En el siguiente flujo, se muestra la integración de las APIs en los datos sin procesar y el procesamiento de CDC para Salesforce, que depende de los campos Id y SystemModStamp que producen las APIs de Salesforce.

Algunas herramientas de replicación pueden combinar o actualizar o insertar los registros cuando se insertan en BigQuery, por lo que la generación de estas secuencias de comandos es opcional. En este caso, la configuración solo tiene un conjunto de datos. El conjunto de datos de informes recupera los registros actualizados para los informes de ese conjunto de datos.