Questo tutorial mostra come eseguire il deployment di un job che replica continuamente i dati modificati da un database Oracle a un set di dati BigQuery utilizzando la replica di Cloud Data Fusion. Questa funzionalità è basata su Datastream.
Obiettivi
In questo tutorial:
- Configurerai il database Oracle per abilitare il logging supplementare.
- Creerai ed eseguirai un job di replica di Cloud Data Fusion.
- Visualizzerai i risultati in BigQuery.
Costi
In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:
Per generare una stima dei costi in base all'utilizzo previsto,
utilizza il calcolatore prezzi.
Quando esegui la replica, ti vengono addebitati i costi per il cluster Dataproc e Cloud Storage, nonché i costi di elaborazione per Datastream e BigQuery. Per ottimizzare questi costi, ti consigliamo vivamente di utilizzare i prezzi a costo fisso di BigQuery.
Prima di iniziare
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.- Crea un'istanza pubblica
di Cloud Data Fusion nella versione 6.3.0 o successive. Se crei un'istanza privata, configura il peering della rete VPC.
- Quando crei l'istanza, abilita la replica facendo clic su Aggiungi acceleratori e selezionando la casella di controllo Replica.
- Per abilitarla in un'istanza esistente, consulta Abilitare la replica.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per connetterti a un database Oracle, chiedi all'amministratore di concederti i seguenti ruoli IAM:
- Worker Dataproc (
roles/dataproc.worker) nel account di servizio Dataproc nel progetto che contiene il cluster - Cloud Data Fusion Runner nel account di servizio Dataproc nel progetto che contiene il cluster
- Amministratore Datastream (
roles/datastream.admin) nel account di servizio Cloud Data Fusion e nel account di servizio Dataproc
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite ruoli personalizzati o altri ruoli predefiniti.
(Facoltativo) Installa Oracle in Compute Engine
Questa sezione mostra come configurare un database di esempio. Se hai già installato un database Oracle, puoi saltare questa sezione.
Scarica un'immagine Docker di Oracle Server.
Per le limitazioni di questa immagine di Oracle Express Edition 11g, consulta Edizioni di Oracle Database.
Esegui il deployment dell'immagine Docker su una nuova istanza VM.
Nella pagina Dischi di Compute Engine, modifica le dimensioni del disco in
500 GBe riavvia la VM.Installa lo schema di esempio HR.
Crea il peering della rete VPC o la regola firewall per il server Oracle
Se Oracle Database non consente il traffico in entrata dagli indirizzi IP pubblici, configura il peering della rete VPC tra la rete VPC Datastream e la rete VPC in cui è possibile accedere al database Oracle. Per saperne di più, consulta Creare una configurazione di connettività privata.
Se il database Oracle consente il traffico in entrata dagli indirizzi IP pubblici, crea una regola firewall per l'istanza VM per consentire il traffico in entrata dagli IP pubblici di Datastream.
Configura Oracle Server per abilitare il logging supplementare
Segui i passaggi per configurare il database Oracle di origine.
Crea ed esegui un job di replica di Cloud Data Fusion
Crea il lavoro
Nell'interfaccia web di Cloud Data Fusion, fai clic su Replica.
Fai clic su Crea un job di replica.
Nella pagina Crea nuovo job di replica, specifica un Nome per il job di replica e fai clic su Avanti.
Configura l'origine:
Seleziona Oracle (by Datastream) come origine.
Per Metodo di connettività, se il server Oracle consente il traffico in entrata dagli IP pubblici di Datastream, scegli Inserimento IP nella lista consentita. In caso contrario, per Nome connessione privata, scegli Connettività privata (peering VPC) e inserisci il nome del peering VPC che hai creato nella sezione Crea il peering della rete VPC o la regola firewall per il server Oracle.
In Host, inserisci il nome host di Oracle Server da leggere.
In Porta, inserisci la porta da utilizzare per connetterti a Oracle Server: 1521.
In Identità di sistema, inserisci
xe(il nome del database di esempio di Oracle Server).Nella sezione delle credenziali, inserisci il nome utente e la password per accedere a Oracle Server.
Lascia invariate tutte le altre proprietà.
Fai clic su Avanti.
Configura la destinazione:
Seleziona la destinazione BigQuery.
L'ID progetto e la chiave dell'account di servizio vengono rilevati automaticamente. Mantieni i valori predefiniti.
(Facoltativo) Nella sezione Avanzate, puoi configurare quanto segue:
- Nome e località del bucket di gestione temporanea
- Intervallo di caricamento
- Prefisso della tabella di gestione temporanea
- Comportamento quando le tabelle o i database vengono eliminati
Fai clic su Avanti.
Se la connessione è riuscita, viene visualizzato un elenco di tabelle. Per questo tutorial, seleziona alcune tabelle.
Fai clic su Avanti.
Nella pagina Esamina valutazione, fai clic su Visualizza mappature accanto a una delle tabelle per ottenere una valutazione dei problemi dello schema, delle funzionalità mancanti o dei problemi di connettività che potrebbero verificarsi durante la replica.
Se si verificano problemi, devi risolverli prima di procedere. Per questo tutorial, se una delle tabelle presenta problemi:
- Torna al passaggio in cui hai selezionato le tabelle.
- Seleziona una tabella o un evento (inserimenti, aggiornamenti o eliminazioni) senza problemi.
Per saperne di più sulle conversioni dei tipi di dati dal database di origine a destinazione BigQuery, consulta Tipi di dati di replica.
Fai clic su Back (Indietro).
Fai clic su Avanti.
Esamina i dettagli del job di replica di riepilogo, quindi fai clic su Esegui il deployment del job di replica.
Avvia il job
Nell'interfaccia web di Cloud Data Fusion, vai alla pagina Dettagli job di replica.
Fai clic su Avvia.
Il job di replica passa dallo stato Provisioning a Avvio e infine a Esecuzione. Nello stato di esecuzione, il job di replica carica uno snapshot iniziale dei dati della tabella selezionata in BigQuery. In questo stato, la tabella è indicata come Snapshotting. Dopo che lo snapshot iniziale è stato caricato in BigQuery, tutte le modifiche apportate alla tabella vengono replicate in BigQuery e la tabella è indicata come Replica.
Monitora il job
Puoi avviare e arrestare il job di replica, esaminarne la configurazione e i log e monitorarlo.
Puoi monitorare le attività del job di replica dalla pagina Dettagli job di replica.
Nella pagina Replica, fai clic sul Nome del job di replica scelto.
Fai clic su Monitoraggio.
Visualizza i risultati in BigQuery
Il job di replica crea un set di dati e una tabella replicati in BigQuery, con nomi ereditati dai nomi del database e della tabella Oracle corrispondenti.
Nella Google Cloud console, vai alla BigQuery.
Nel riquadro a sinistra, fai clic sul nome del progetto per espandere un elenco di set di dati.
Seleziona il set di dati
xe, quindi seleziona una tabella da visualizzare.
Per saperne di più, consulta la documentazione di BigQuery.
Libera spazio
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
Al termine del tutorial, esegui la pulizia delle risorse create su Google Cloud in modo che non occupino la quota e non ti vengano addebitate in futuro. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.
Elimina l'istanza VM
Nella Google Cloud console, vai alla pagina Istanze VM.
Seleziona la casella di controllo per l'istanza da eliminare.
Per eliminare l'istanza, fai clic su Elimina.
Elimina l'istanza Cloud Data Fusion
Segui le istruzioni per eliminare l'istanza Cloud Data Fusion.
Elimina il progetto
Il modo più semplice per eliminare la fatturazione è eliminare il progetto creato per il tutorial.
Per eliminare il progetto:
- Nella Google Cloud console, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID progetto e fai clic su Chiudi per eliminare il progetto.
Passaggi successivi
- Scopri di più su Datastream.
- Scopri di più sulla replica in Cloud Data Fusion.
- Consulta il riferimento API di replica.
- Consulta il riferimento alla replica di Oracle.
- Segui il tutorial per la replica dei dati da MySQL a BigQuery.
- Segui il tutorial per la replica dei dati da SQL Server a BigQuery.