Neste tutorial, mostramos como implantar um job que replica continuamente os dados alterados de um banco de dados Oracle para um conjunto de dados do BigQuery usando o Cloud Data Fusion Replication. Esse recurso é desenvolvido pelo Datastream.
Opcional: instale o Oracle no Compute Engine
Esta seção mostra como configurar um banco de dados de exemplo. Se você já tiver um banco de dados Oracle instalado, pule esta seção.
Faça o download de uma imagem do Docker do servidor Oracle.
Para limitações desta imagem do Oracle Express Edition 11g, consulte Edições do banco de dados Oracle.
Implante a imagem do Docker em uma nova instância de VM.
Na página Discos do Compute Engine, altere o tamanho do disco para
500 GB
e reinicie a VM.Instale o esquema de amostra de RH.
Criar um peering de rede VPC ou uma regra de firewall para o servidor Oracle
Se o banco de dados Oracle não permitir o tráfego de entrada de endereços IP públicos, configure o peering de rede VPC entre a VPC do Datastream e a VPC em que o banco de dados Oracle pode ser acessado. Para mais informações, consulte Criar uma configuração de conectividade privada.
Se o banco de dados Oracle permitir o tráfego de entrada de endereços IP públicos, crie uma regra de firewall para a instância de VM que permita o tráfego de entrada de IPs públicos do Datastream.
Configurar o servidor Oracle para ativar a geração de registros complementares
Siga as etapas para configurar o banco de dados de origem da Oracle.
Criar e executar um job de replicação do Cloud Data Fusion
Crie a tarefa
Na interface da Web do Cloud Data Fusion, clique em Replicação.
Clique em
Criar um job de replicação.Na página Criar novo job de replicação, especifique um Nome para ele e clique em Próxima.
Configure a origem:
Selecione Oracle (por Datastream) como a origem.
Em mètodo de conectividade, se seu servidor Oracle permitir o tráfego de entrada de IPs públicos do Datastream, escolha Lista de permissões de IP. Caso contrário, em Nome da conexão particular, escolha Conectividade particular (peering de VPC) e insira o nome do peering de VPC que você criou na seção Criar peering de rede VPC ou regra de firewall para o servidor Oracle.
Em Host, digite o nome do host do servidor Oracle que será lido.
Em Porta, digite a porta que será usada para se conectar ao servidor Oracle: 1521.
Em Identidade do sistema, digite
xe
(o nome do banco de dados de amostra do servidor Oracle).Na seção de credenciais, digite o nome de usuário e a senha para acessar o servidor Oracle.
Não mude as outras propriedades.
Clique em Próxima.
Configure o destino:
Selecione o destino do BigQuery.
O ID do projeto e a chave da conta de serviço são detectados automaticamente. Mantenha os valores padrão como estão.
Opcional: na seção Avançado, é possível configurar o seguinte:
- Nome e local do bucket de preparação
- Intervalo de carga
- Prefixo da tabela de teste
- Comportamento quando tabelas ou bancos de dados são descartados
Clique em Próxima.
Se a conexão for bem-sucedida, uma lista de tabelas será exibida. Para este tutorial, selecione algumas tabelas.
Clique em Próxima.
Na página Analisar avaliação, clique em Visualizar mapeamentos em qualquer uma das tabelas para ver uma avaliação dos problemas de esquema, dos recursos ausentes ou dos problemas de conectividade que podem ocorrem durante a replicação.
Se ocorrer algum problema, ele precisará ser resolvido antes de continuar. Para este tutorial, se alguma das tabelas tiver problemas, faça o seguinte:
- Volte para a etapa em que você selecionou as tabelas.
- Selecione uma tabela ou evento (inserções, atualizações ou exclusões) sem problemas.
Para mais informações sobre conversões de tipos de dados do banco de dados de origem para o destino do BigQuery, consulte Tipos de dados de replicação.
Clique em Back.
Clique em Próxima.
Revise o resumo dos detalhes do job de replicação e clique em Implantar job de replicação.
Iniciar o job
Na interface da Web do Cloud Data Fusion, acesse a página de detalhes do job de replicação.
Clique em Iniciar.
O job de replicação é transferido do estado provisionando para Iniciando em Em execução. No estado em execução, o job de replicação carrega um snapshot inicial dos dados da tabela que você selecionou no BigQuery. Nesse estado, o estado da tabela é listado como Snapshot. Depois que o snapshot inicial é carregado no BigQuery, todas as alterações feitas na tabela são replicadas no BigQuery, e o estado da tabela é listado como Replicação.
Monitorar o job
É possível iniciar e interromper o job de replicação, revisar a configuração e os registros dele e monitorar o job.
É possível monitorar as atividades do job de replicação na página Detalhes do job de replicação.
Na página Replicação, clique no Nome do job de replicação escolhido.
Clique em Monitoring.
Ver os resultados no BigQuery
O job de replicação cria um conjunto de dados e uma tabela replicados no BigQuery. Os nomes são herdados dos nomes de bancos de dados e tabelas Oracle correspondentes.
No console Google Cloud , acesse a página BigQuery.
No painel à esquerda, clique no nome do projeto para expandir uma lista de conjuntos de dados.
Selecione o conjunto de dados
xe
e, depois, uma tabela para visualizar.
Para saber mais, consulte a documentação do Tableau.