Procesamiento de la transferencia de la captura de datos modificados (CDC)

En esta página, se explica cómo realizar la transferencia de datos de captura de datos modificados (CDC) en Google Cloud Cortex Framework en BigQuery. BigQuery está diseñado para almacenar y analizar datos nuevos de manera eficiente.

Proceso de CDC

Cuando los datos cambian en tu sistema de datos fuente (como SAP), BigQuery no modifica los registros existentes. En cambio, la información actualizada se agrega como un registro nuevo. Para evitar duplicados, se debe aplicar una operación de combinación después. Este proceso se denomina transferencia de captura de datos modificados (CDC).

La Data Foundation para SAP incluye la opción de crear secuencias de comandos para Cloud Composer o Apache Airflow para combinar o upsert los registros nuevos que resultan de las actualizaciones y conservar solo la versión más reciente en un conjunto de datos nuevo. Para que estas secuencias de comandos funcionen, las tablas deben tener algunos campos específicos:

  • operation_flag: Esta marca le indica a la secuencia de comandos si se insertó, actualizó o borró un registro.
  • recordstamp: Esta marca de tiempo ayuda a identificar la versión más reciente de un registro. Esta marca indica si el registro es de uno de los siguientes tipos:
    • Insertado (I)
    • Actualizado (U)
    • Borrado (D)

Si utilizas el procesamiento de CDC, puedes asegurarte de que tus datos de BigQuery reflejen con precisión el estado más reciente de tu sistema fuente. Esto elimina las entradas duplicadas y proporciona una base confiable para tu análisis de datos.

Estructura del conjunto de datos

Para todas las fuentes de datos admitidas, los datos de los sistemas upstream primero se replican en un conjunto de datos de BigQuery (source o replicated dataset), y los resultados actualizados o combinados se insertan en otro conjunto de datos (conjunto de datos de CDC). Las vistas de informes seleccionan datos del conjunto de datos de CDC para garantizar que las herramientas y aplicaciones de informes siempre tengan la versión más reciente de una tabla.

El siguiente flujo muestra cómo se realiza el procesamiento de CDC para SAP, según operational_flag y recordstamp.

Ejemplo de procesamiento de CDC para SAP

Figura 1. Ejemplo de procesamiento de CDC para SAP.

El siguiente flujo describe la integración de las APIs en el procesamiento de datos sin procesar y de CDC para Salesforce, que depende de los campos Id y SystemModStamp que producen las APIs de Salesforce.

Integración de APIs en el procesamiento de datos sin procesar y de CDC para Salesforce

Figura 2: Integración de APIs en el procesamiento de datos sin procesar y de CDC para Salesforce.

Algunas herramientas de replicación pueden combinar o insertar/actualizar los registros cuando se insertan en BigQuery, por lo que la generación de estos scripts es opcional. En este caso, la configuración solo tiene un conjunto de datos. El conjunto de datos de informes recupera registros actualizados para los informes de ese conjunto de datos.