Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Descripción general de la replicación

La replicación de Cloud Data Fusion te permite crear copias de tus datos de forma continua y en tiempo real desde almacenes de datos operativos, como SQL Server y MySQL, en BigQuery.

Para usar la replicación, elige una de las siguientes opciones:

Crea una instancia nueva de Cloud Data Fusion y agrega la app de Replication.
Agrega la app de Replication a una instancia existente.

Estos son algunos de los beneficios:

Identifica las incompatibilidades del esquema, los problemas de conectividad y las funciones faltantes antes de iniciar la replicación y, luego, proporciona acciones correctivas.
Usar los datos operativos más recientes en tiempo real para el análisis en BigQuery Usas la replicación basada en registros directamente en BigQuery desde Microsoft SQL Server (con CDC de SQL Server) y MySQL (con el registro binario de MySQL).
La captura de datos modificados (CDC) proporciona una representación de los datos que cambiaron en una transmisión, lo que permite que los cálculos y el procesamiento se enfoquen solo en los registros modificados más recientemente. Esto minimiza los cargos por datos salientes en los sistemas de producción sensibles.
Escalabilidad empresarial que admite bases de datos transaccionales de gran volumen. Las cargas iniciales de datos en BigQuery se admiten con la replicación de instantáneas sin tiempo de inactividad, para que el almacén de datos esté listo para consumir cambios de forma continua. Una vez que se completa la instantánea inicial, comienza la replicación continua de alto rendimiento de los cambios en tiempo real.
Los paneles que te ayudan a obtener estadísticas en tiempo real sobre el rendimiento de la replicación Es útil para identificar cuellos de botella y supervisar los ANS de entrega de datos.
Incluye compatibilidad con la residencia de datos, las claves de encriptación administradas por el cliente (CMEK) y los Controles del servicio de VPC. La integración de Cloud Data Fusion enGoogle Cloud garantiza que se observen los niveles más altos de seguridad y privacidad empresariales, al tiempo que pone a disposición los datos más recientes en tu almacén de datos para el análisis.

Precios recomendados

Cuando se ejecuta la replicación, se te cobra por el clúster del servicio administrado para Apache Spark y se generan costos de procesamiento para BigQuery. Para optimizar estos costos, te recomendamos que uses los precios de tasa fija de BigQuery.

Para obtener más información, consulta la página de precios de Cloud Data Fusion.

Entidades de replicación

Entity	Descripción
Replicación	La replicación es una capacidad de Cloud Data Fusion que permite replicar datos de forma continua con baja latencia desde almacenes de datos operativos a almacenes de datos analíticos. Crea un trabajo de replicación configurando una fuente y un destino con transformaciones opcionales.
Fuente	Lee los eventos de cambio de la base de datos, la tabla o la columna, y los pone a disposición para su procesamiento posterior en un trabajo de replicación. Un trabajo de replicación contiene una fuente, que se basa en una solución de captura de cambios para proporcionar los cambios. Puede haber varias fuentes para una base de datos, cada una con una solución de captura de cambios diferente. Una fuente es un módulo conectable creado con la arquitectura de complementos de CDAP. Si no hay una fuente disponible para satisfacer tus necesidades, puedes compilar la tuya propia implementando la interfaz de la fuente y, luego, subirla a CDAP o Cloud Data Fusion.
Target	Escribe los cambios recibidos de una fuente en una base de datos de destino. Un trabajo de replicación contiene un destino. Un destino es un módulo conectable creado con la arquitectura de complementos de CDAP. Si no hay un destino disponible que satisfaga tus necesidades, puedes compilar el tuyo propio implementando la interfaz de destino y, luego, subirlo a CDAP o Cloud Data Fusion.
Propiedades fuente	Configura la fuente, incluidos los detalles de conexión, los nombres de la base de datos y la tabla de origen, las credenciales y otras propiedades.
Propiedades de destino	Configura el destino, incluidos los detalles de conexión, los nombres de la base de datos y la tabla de destino, las credenciales y otras propiedades.
Propiedades del trabajo de replicación	Configura el trabajo de replicación, incluidos los umbrales de falla, las áreas de etapa de pruebas, las notificaciones y la configuración de validación.
Borrador	Es un trabajo de replicación guardado y completado parcialmente. Cuando se completa la definición del trabajo de replicación, se puede iniciar.
Eventos	Son los eventos de cambio en la fuente que se replicarán en el destino. Los eventos incluyen inserciones, actualizaciones, eliminaciones y cambios en el DDL (lenguaje de definición de datos).
Insertar	Se agregan registros nuevos a la fuente.
Actualizar	Actualización de los registros existentes en la fuente
Borrar	Se quitarán los registros existentes en la fuente.
Cambio de DDL	Es un evento que contiene un cambio de esquema, como un cambio en el tipo o el nombre de los datos.
Registros	Son los registros operativos de un trabajo de replicación.
Detalles del trabajo de replicación	Una página de detalles con información del trabajo de replicación, como su estado actual, métricas operativas, vista histórica a lo largo del tiempo, resultados de validación y su configuración.
Panel	Una página que enumera el estado de todas las actividades de captura de datos modificados, incluidos el rendimiento, la latencia, las tasas de errores y los resultados de la validación.

Acciones

Acciones	Descripción
Implementar	Crear un trabajo de replicación nuevo siguiendo un flujo de interfaz web para especificar una fuente, un destino y su configuración
Guardar	Guardar un trabajo de replicación creado parcialmente para reanudar la creación más adelante
Borrar	Se borró un trabajo de replicación existente. Solo se pueden borrar las canalizaciones detenidas.
Iniciar	Se inició un trabajo de replicación. Si hay cambios que procesar, el trabajo de replicación entra en el estado "activo"; de lo contrario, entra en el estado "en espera".
Detener	Se detiene un trabajo de replicación. El trabajo de replicación deja de procesar los cambios del origen.
Ver registros	Visualizar los registros de un trabajo de replicación para depurar o realizar otro análisis
Buscar	Busca un trabajo de replicación por su nombre, descripción o cualquier otro metadato.
Evaluación	Evaluar el impacto de la replicación antes de iniciarla La evaluación de un trabajo de replicación genera un informe de evaluación que marca las incompatibilidades de esquema y las funciones faltantes.

Supervisión

Estados del replicador	Descripción
Implementado	Se implementó el trabajo de replicación, pero no se inició. En este estado, un trabajo de replicación no replica eventos.
Iniciándose	El trabajo de replicación se está inicializando y no está listo para replicar cambios.
En ejecución	Se inició el trabajo de replicación y se están replicando los cambios.
Deteniendo	Se está deteniendo el trabajo de replicación.
Detenida	Se detuvo el trabajo de replicación.
Con errores	No se pudo completar el trabajo de replicación debido a errores graves.

Estados de la tabla

Concepto	Descripción
Captura de instantáneas	El trabajo de replicación está tomando una instantánea del estado actual de la tabla antes de replicar los cambios.
Con replicación	El trabajo de replicación está replicando los cambios de la tabla de origen a la tabla de destino.
Falló	El trabajo de replicación no puede replicar los cambios de la tabla de origen debido a un error.

Métricas

Concepto	Descripción
Inserciones	Es la cantidad de inserciones aplicadas al objetivo en el período seleccionado.
Actualizaciones	Es la cantidad de actualizaciones que se aplicaron al objetivo en el período seleccionado.
Eliminaciones	Es la cantidad de eliminaciones aplicadas al objetivo en el período seleccionado.
DDLs	Es la cantidad de cambios de DDL aplicados al destino en el período seleccionado.
Capacidad de procesamiento	Cantidad de eventos y bytes replicados en el destino durante el período seleccionado.
Latencia	Es la latencia con la que se replican los datos en el destino durante el período seleccionado.

Componentes

Componente	Descripción
Servicio	Supervisa la organización integral de los trabajos de replicación y proporciona capacidades para diseñar, implementar, administrar y supervisar trabajos de replicación. Se ejecuta dentro del proyecto de usuario de Cloud Data Fusion (el proyecto de usuario está oculto para el usuario). Su estado se muestra en la página Administrador del sistema de la interfaz web de Cloud Data Fusion.
Administración de estado	El servicio administra el estado de cada trabajo de replicación en un bucket de Cloud Storage en el proyecto del cliente. El bucket se puede configurar cuando se crea el trabajo de replicación. Almacena los desplazamientos y el estado de replicación actuales de cada trabajo de replicación.
Ejecución	Los clústeres de Managed Service para Apache Spark proporcionan el entorno de ejecución de los trabajos de replicación, que se ejecutan en tu proyecto. Los trabajos de replicación se ejecutan con trabajadores de CDAP. El tamaño y las características del entorno de ejecución se configuran con perfiles de Compute Engine.
Base de datos de origen	Tu base de datos operativa de producción que se replica en tu base de datos de destino. Esta base de datos puede ubicarse de forma local o en Google Cloud. La replicación de Cloud Data Fusion admite bases de datos de origen de MySQL, Microsoft SQL Server y Oracle.
Solución de seguimiento de cambios	En lugar de ejecutarse en un agente que se ejecuta en la base de datos de origen, Cloud Data Fusion se basa en una solución de seguimiento de cambios para leer los cambios en la base de datos de origen. La solución puede ser un componente de la base de datos de origen o una solución de terceros con licencia independiente. En el último caso, la solución de seguimiento de cambios se ejecuta de forma local, junto con la base de datos de origen, o en Google Cloud. Cada fuente debe estar asociada a una solución de seguimiento de cambios. SQL Server Solución compatible: CDC de SQL Server (tablas de seguimiento de cambios) Software adicional: No Licencia o costo: N/A Comentarios: Disponible en SQL Server 2016 y versiones posteriores MySQL Solución compatible: Registro binario de MySQL Software adicional: No Licencia o costo: N/A Comentarios: N/A Oracle Solución compatible: Oracle LogMiner Software adicional: No Licencia o costo: N/A Comentarios: Consulta las versiones compatibles con Datastream
Base de datos objetivo	Es la ubicación de destino para la replicación y el análisis. Cloud Data Fusion admite la base de datos de destino de BigQuery.
Authentication	Los mecanismos de autenticación varían según la base de datos de origen o el software de seguimiento de cambios. Cuando se usan las capacidades integradas de las bases de datos de origen, como SQL Server y MySQL, se usan los accesos a la base de datos para la autenticación. Cuando se usa software de seguimiento de cambios, se utiliza el mecanismo de autenticación del software.

Conectividad

En la siguiente tabla, se describen las conexiones de red necesarias para la replicación y los mecanismos de seguridad que utilizan.

Desde	Hasta	Opcional	Protocolo	Red	Seguridad de autenticación	Objetivo
Servicio (proyecto de usuario)	Base de datos de origen	Sí	Depende de la fuente de replicación. JDBC para la conexión directa a la base de datos	Intercambio de tráfico + reglas de firewall + VPN/Interconnect + router	Acceso a la base de datos	Se necesita en el momento del diseño, no en el de la ejecución. Funciones: Lista de tablas, evaluación (pasos opcionales; la replicación puede continuar sin ellos)
Servicio (proyecto de usuario)	Cloud Storage	No	API de Cloud	VPC‑SC	IAM	Administración de estado: Desplazamientos, estados de replicación
Managed Service para Apache Spark (tu proyecto)	Base de datos de origen	No	Depende de la fuente. JDBC para la conexión directa a la base de datos.	Intercambio de tráfico + reglas de firewall + VPN/Interconnect + router	Acceso a la base de datos	Se necesita en el tiempo de ejecución para leer los cambios de la base de datos de origen y replicarlos en el destino.
Managed Service para Apache Spark (tu proyecto)	Cloud Storage	No	API de Cloud	VPC‑SC	IAM	Administración de estado: Desplazamientos, estados de replicación
Managed Service para Apache Spark (tu proyecto)	BigQuery	No	API de Cloud	VPC‑SC	IAM	Se necesita en el tiempo de ejecución para aplicar los cambios de la BD de origen a la de destino.

¿Qué sigue?

Consulta la referencia de la API de replicación.
Consulta las asignaciones de tipos de datos para la replicación.

Descripción general de la replicación Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.