En este tutorial se muestra cómo implementar una tarea que replica continuamente los datos modificados de una base de datos de Oracle en un conjunto de datos de BigQuery mediante la replicación de Cloud Data Fusion. Esta función usa la tecnología de Datastream.
Opcional: Instalar Oracle en Compute Engine
En esta sección se muestra cómo configurar una base de datos de ejemplo. Si ya tiene instalada una base de datos Oracle, puede saltarse esta sección.
Descarga una imagen Docker de Oracle Server.
Para ver las limitaciones de esta imagen de Oracle Express Edition 11g, consulta Ediciones de Oracle Database.
Despliega tu imagen Docker en una nueva instancia de VM.
En la página Discos de Compute Engine, cambia el tamaño del disco a
500 GB
y reinicia la VM.Instala el esquema de muestra de RR. HH..
Crear un emparejamiento de redes de VPC o una regla de cortafuegos para tu servidor Oracle
Si tu base de datos de Oracle no permite el tráfico entrante de direcciones IP públicas, configura el peering de redes de VPC entre la VPC de Datastream y la VPC en la que se puede acceder a tu base de datos de Oracle. Para obtener más información, consulta el artículo Crear una configuración de conectividad privada.
Si tu base de datos de Oracle permite el tráfico entrante de direcciones IP públicas, crea una regla de cortafuegos para la instancia de VM que permita el tráfico entrante de las IPs públicas de Datastream.
Configurar el servidor Oracle para habilitar el registro complementario
Sigue los pasos para configurar tu base de datos de Oracle de origen.
Crear y ejecutar un trabajo de replicación de Cloud Data Fusion
Crea la tarea.
En la interfaz web de Cloud Data Fusion, haga clic en Replicación.
Haz clic en
Crear un trabajo de replicación.En la página Create new replication job (Crear trabajo de replicación), especifica un Name (Nombre) para el trabajo de replicación y haz clic en Next (Siguiente).
Configura la fuente:
Selecciona Oracle (por Datastream) como fuente.
En Método de conectividad, si tu servidor Oracle permite el tráfico entrante de las IPs públicas de Datastream, elige Incluir IPs en lista de IP permitidas. De lo contrario, en Nombre de la conexión privada, elige Conectividad privada (emparejamiento de VPC) e introduce el nombre del emparejamiento de VPC que has creado en la sección Crear un emparejamiento de redes de VPC o una regla de cortafuegos para tu servidor de Oracle.
En Host, introduce el nombre de host del servidor de Oracle que quieras leer.
En Port (Puerto), introduce el puerto que se va a usar para conectarte al servidor de Oracle: 1521.
En Identidad del sistema, introduce
xe
(el nombre de la base de datos de muestra del servidor Oracle).En la sección de credenciales, introduce tu nombre de usuario y tu contraseña para acceder al servidor de Oracle.
Deja el resto de las propiedades como están.
Haz clic en Siguiente.
Configura el objetivo:
Selecciona el destino de BigQuery.
El ID de proyecto y la clave de cuenta de servicio se detectan automáticamente. Mantenga los valores predeterminados.
Opcional: En la sección Avanzado, puede configurar lo siguiente:
- Nombre y ubicación del segmento de almacenamiento provisional
- Intervalo de carga
- Prefijo de la tabla de staging
- Comportamiento cuando se eliminan tablas o bases de datos
Haz clic en Siguiente.
Si la conexión se realiza correctamente, se mostrará una lista de tablas. En este tutorial, selecciona algunas tablas.
Haz clic en Siguiente.
En la página de revisión de la evaluación, haga clic en Ver asignaciones en cualquiera de las tablas para obtener una evaluación de los problemas de esquema, las funciones que faltan o los problemas de conectividad que puedan producirse durante la replicación.
Si se produce algún problema, debes resolverlo antes de continuar. En este tutorial, si alguna de las tablas tiene problemas, haz lo siguiente:
- Vuelve al paso en el que seleccionaste las tablas.
- Selecciona una tabla o un evento (inserciones, actualizaciones o eliminaciones) sin problemas.
Para obtener más información sobre las conversiones de tipos de datos de la base de datos de origen al destino de BigQuery, consulta Tipos de datos de replicación.
Haz clic en Back (Atrás).
Haz clic en Siguiente.
Revisa los detalles del trabajo de replicación del resumen y haz clic en Implementar trabajo de replicación.
Empezar el trabajo
En la interfaz web de Cloud Data Fusion, ve a la página de detalles de la tarea de replicación.
Haz clic en Empezar.
El trabajo de replicación pasa del estado Provisioning (Aprovisionando) al estado Starting (Iniciando) y, después, al estado Running (En ejecución). En el estado de ejecución, la tarea de replicación carga una instantánea inicial de los datos de la tabla que has seleccionado en BigQuery. En este estado, el estado de la tabla se indica como Creando instantánea. Una vez que se haya cargado la primera copia en BigQuery, cualquier cambio que se haga en la tabla se replicará en BigQuery y el estado de la tabla será Replicando.
Monitorizar la tarea
Puedes iniciar y detener la tarea de replicación, revisar su configuración y sus registros, y monitorizarla.
Puedes monitorizar las actividades de las tareas de replicación desde la página Detalles de la tarea de replicación.
En la página Replicación, haga clic en el Nombre del trabajo de replicación que haya elegido.
Haz clic en Monitorización.
Ver los resultados en BigQuery
La tarea de replicación crea un conjunto de datos y una tabla replicados en BigQuery, con nombres heredados de los nombres de la base de datos y la tabla de Oracle correspondientes.
En la consola de Google Cloud , ve a la página BigQuery.
En el panel de la izquierda, haz clic en el nombre de tu proyecto para desplegar una lista de conjuntos de datos.
Selecciona el conjunto de datos
xe
y, a continuación, selecciona una tabla para verla.
Para obtener más información, consulta la documentación de BigQuery.