Replica dei dati dal database Oracle a BigQuery

Questo tutorial mostra come eseguire il deployment di un job che replica continuamente i dati modificati da un database Oracle a un set di dati BigQuery utilizzando la replica di Cloud Data Fusion. Questa funzionalità è basata su Datastream.

Obiettivi

In questo tutorial:

Configurerai il database Oracle per abilitare il logging supplementare.
Creerai ed eseguirai un job di replica di Cloud Data Fusion.
Visualizzerai i risultati in BigQuery.

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il calcolatore prezzi.

I nuovi Google Cloud utenti potrebbero avere diritto a una prova senza costi.

Quando esegui la replica, ti vengono addebitati i costi per il cluster Dataproc e Cloud Storage, nonché i costi di elaborazione per Datastream e BigQuery. Per ottimizzare questi costi, ti consigliamo vivamente di utilizzare i prezzi a costo fisso di BigQuery.

Prima di iniziare

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Crea un'istanza pubblica di Cloud Data Fusion nella versione 6.3.0 o successive. Se crei un'istanza privata, configura il peering della rete VPC.
- Quando crei l'istanza, abilita la replica facendo clic su Aggiungi acceleratori e selezionando la casella di controllo Replica.
- Per abilitarla in un'istanza esistente, consulta Abilitare la replica.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per connetterti a un database Oracle, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Worker Dataproc (roles/dataproc.worker) nel account di servizio Dataproc nel progetto che contiene il cluster
Cloud Data Fusion Runner nel account di servizio Dataproc nel progetto che contiene il cluster
Amministratore Datastream (roles/datastream.admin) nel account di servizio Cloud Data Fusion e nel account di servizio Dataproc

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite ruoli personalizzati o altri ruoli predefiniti.

(Facoltativo) Installa Oracle in Compute Engine

Questa sezione mostra come configurare un database di esempio. Se hai già installato un database Oracle, puoi saltare questa sezione.

Scarica un'immagine Docker di Oracle Server.

Per le limitazioni di questa immagine di Oracle Express Edition 11g, consulta Edizioni di Oracle Database.
Esegui il deployment dell'immagine Docker su una nuova istanza VM.

Nota: per eseguire il deployment dell'immagine nella nuova istanza VM, il servizio Compute Engine deve avere il ruolo Lettore Artifact Registry (roles/artifactregistry.reader).
Nella pagina Dischi di Compute Engine, modifica le dimensioni del disco in 500 GB e riavvia la VM.

Vai a Dischi
Installa lo schema di esempio HR.

Crea il peering della rete VPC o la regola firewall per il server Oracle

Se Oracle Database non consente il traffico in entrata dagli indirizzi IP pubblici, configura il peering della rete VPC tra la rete VPC Datastream e la rete VPC in cui è possibile accedere al database Oracle. Per saperne di più, consulta Creare una configurazione di connettività privata.

Se il database Oracle consente il traffico in entrata dagli indirizzi IP pubblici, crea una regola firewall per l'istanza VM per consentire il traffico in entrata dagli IP pubblici di Datastream.

Configura Oracle Server per abilitare il logging supplementare

Segui i passaggi per configurare il database Oracle di origine.

Crea ed esegui un job di replica di Cloud Data Fusion

Crea il lavoro

Nell'interfaccia web di Cloud Data Fusion, fai clic su Replica.
Fai clic su Crea un job di replica.
Nella pagina Crea nuovo job di replica, specifica un Nome per il job di replica e fai clic su Avanti.
Configura l'origine:
1. Seleziona Oracle (by Datastream) come origine.
2. Per Metodo di connettività, se il server Oracle consente il traffico in entrata dagli IP pubblici di Datastream, scegli Inserimento IP nella lista consentita. In caso contrario, per Nome connessione privata, scegli Connettività privata (peering VPC) e inserisci il nome del peering VPC che hai creato nella sezione Crea il peering della rete VPC o la regola firewall per il server Oracle.
3. In Host, inserisci il nome host di Oracle Server da leggere.
4. In Porta, inserisci la porta da utilizzare per connetterti a Oracle Server: 1521.
5. In Identità di sistema, inserisci xe (il nome del database di esempio di Oracle Server).
6. Nella sezione delle credenziali, inserisci il nome utente e la password per accedere a Oracle Server.
7. Lascia invariate tutte le altre proprietà.
Fai clic su Avanti.
Configura la destinazione:
1. Seleziona la destinazione BigQuery.
2. L'ID progetto e la chiave dell'account di servizio vengono rilevati automaticamente. Mantieni i valori predefiniti.
3. (Facoltativo) Nella sezione Avanzate, puoi configurare quanto segue:
  - Nome e località del bucket di gestione temporanea
  - Intervallo di caricamento
  - Prefisso della tabella di gestione temporanea
  - Comportamento quando le tabelle o i database vengono eliminati
Fai clic su Avanti.
Se la connessione è riuscita, viene visualizzato un elenco di tabelle. Per questo tutorial, seleziona alcune tabelle.

Nota: per procedere, il logging supplementare deve essere abilitato nelle tabelle selezionate.
Fai clic su Avanti.
Nella pagina Esamina valutazione, fai clic su Visualizza mappature accanto a una delle tabelle per ottenere una valutazione dei problemi dello schema, delle funzionalità mancanti o dei problemi di connettività che potrebbero verificarsi durante la replica.

Se si verificano problemi, devi risolverli prima di procedere. Per questo tutorial, se una delle tabelle presenta problemi:
1. Torna al passaggio in cui hai selezionato le tabelle.
2. Seleziona una tabella o un evento (inserimenti, aggiornamenti o eliminazioni) senza problemi.
Per saperne di più sulle conversioni dei tipi di dati dal database di origine a destinazione BigQuery, consulta Tipi di dati di replica.
Fai clic su Back (Indietro).
Fai clic su Avanti.
Esamina i dettagli del job di replica di riepilogo, quindi fai clic su Esegui il deployment del job di replica.

Avvia il job

Nell'interfaccia web di Cloud Data Fusion, vai alla pagina Dettagli job di replica.
Fai clic su Avvia.

Il job di replica passa dallo stato Provisioning a Avvio e infine a Esecuzione. Nello stato di esecuzione, il job di replica carica uno snapshot iniziale dei dati della tabella selezionata in BigQuery. In questo stato, la tabella è indicata come Snapshotting. Dopo che lo snapshot iniziale è stato caricato in BigQuery, tutte le modifiche apportate alla tabella vengono replicate in BigQuery e la tabella è indicata come Replica.

Monitora il job

Puoi avviare e arrestare il job di replica, esaminarne la configurazione e i log e monitorarlo.

Puoi monitorare le attività del job di replica dalla pagina Dettagli job di replica.

Nella pagina Replica, fai clic sul Nome del job di replica scelto.
Fai clic su Monitoraggio.

Visualizza i risultati in BigQuery

Il job di replica crea un set di dati e una tabella replicati in BigQuery, con nomi ereditati dai nomi del database e della tabella Oracle corrispondenti.

Nella Google Cloud console, vai alla BigQuery.
Nel riquadro a sinistra, fai clic sul nome del progetto per espandere un elenco di set di dati.
Seleziona il set di dati xe, quindi seleziona una tabella da visualizzare.

Per saperne di più, consulta la documentazione di BigQuery.

Libera spazio

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Al termine del tutorial, esegui la pulizia delle risorse create su Google Cloud in modo che non occupino la quota e non ti vengano addebitate in futuro. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.

Elimina l'istanza VM

Nella Google Cloud console, vai alla pagina Istanze VM.

Vai a Istanze VM
Seleziona la casella di controllo per l'istanza da eliminare.
Per eliminare l'istanza, fai clic su Elimina.

Elimina l'istanza Cloud Data Fusion

Segui le istruzioni per eliminare l'istanza Cloud Data Fusion.

Elimina il progetto

Il modo più semplice per eliminare la fatturazione è eliminare il progetto creato per il tutorial.

Per eliminare il progetto:

Attenzione: l'eliminazione di un progetto ha i seguenti effetti:

L'intero contenuto del progetto viene eliminato. Se hai utilizzato un progetto esistente per, le attività descritte in questo documento, eliminerai anche tutto il lavoro che hai svolto nel progetto.
Gli ID progetto personalizzati non sono più disponibili. Quando hai creato questo progetto, potresti aver creato un ID progetto personalizzato che vuoi utilizzare in futuro. Per conservare gli URL che utilizzano l'ID progetto, ad esempio un URL appspot.com, elimina le risorse selezionate all'interno del progetto anziché eliminare l'intero progetto.

Se intendi esplorare più architetture, tutorial o guide rapide, puoi riutilizzare i progetti ed evitare così di superare i limiti di quota.

Nella Google Cloud console, vai alla pagina Gestisci risorse.
Vai a Gestisci risorse
Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
Nella finestra di dialogo, digita l'ID progetto e fai clic su Chiudi per eliminare il progetto.

Passaggi successivi

Scopri di più su Datastream.
Scopri di più sulla replica in Cloud Data Fusion.
Consulta il riferimento API di replica.
Consulta il riferimento alla replica di Oracle.
Segui il tutorial per la replica dei dati da MySQL a BigQuery.
Segui il tutorial per la replica dei dati da SQL Server a BigQuery.