Replica dei dati dal database Oracle a BigQuery

Questo tutorial mostra come eseguire il deployment di un job che replica continuamente i dati modificati da un database Oracle a un set di dati BigQuery utilizzando la replica di Cloud Data Fusion. Questa funzionalità è basata su Datastream.

(Facoltativo) Installa Oracle in Compute Engine

Questa sezione mostra come configurare un database di esempio. Se hai già installato un database Oracle, puoi saltare questa sezione.

  1. Scarica un'immagine Docker di Oracle Server.

    Per le limitazioni di questa immagine di Oracle Express Edition 11g, vedi Oracle Database Editions.

  2. Esegui il deployment dell'immagine Docker su una nuova istanza VM.

  3. Nella pagina Dischi di Compute Engine, modifica le dimensioni del disco in 500 GB e riavvia la VM.

    Vai a Dischi

  4. Installa lo schema di esempio HR.

Crea il peering di rete VPC o la regola firewall per il server Oracle

Se il tuo database Oracle non consente il traffico in entrata dagli indirizzi IP pubblici, configura il peering di rete VPC tra il VPC Datastream e il VPC in cui è possibile accedere al tuo database Oracle. Per ulteriori informazioni, consulta Creare una configurazione di connettività privata.

Se il tuo database Oracle consente il traffico in entrata dagli indirizzi IP pubblici, crea una regola firewall per l'istanza VM per consentire il traffico in entrata dagli IP pubblici di Datastream.

Configura il server Oracle per attivare il logging supplementare

Segui i passaggi per configurare il database Oracle di origine.

Crea ed esegui un job di replica Cloud Data Fusion

Crea il lavoro

  1. Nell'interfaccia web di Cloud Data Fusion, fai clic su Replicazione.

  2. Fai clic su Crea un job di replica.

  3. Nella pagina Crea nuovo job di replica, specifica un Nome per il job di replica e fai clic su Avanti.

  4. Configura l'origine:

    1. Seleziona Oracle (by Datastream) come origine.

    2. Per Metodo di connettività, se il server Oracle consente il traffico in entrata dagli IP pubblici di Datastream, scegli Lista consentita IP. Altrimenti, per Nome connessione privata, scegli Connettività privata (peering VPC) e inserisci il nome del peering VPC che hai creato nella sezione Crea peering di rete VPC o regola firewall per il tuo server Oracle.

    3. In Host, inserisci il nome host del server Oracle da leggere.

    4. In Porta, inserisci la porta da utilizzare per connetterti a Oracle Server: 1521.

    5. In Identità sistema, inserisci xe (il nome del database di esempio del server Oracle).

    6. Nella sezione delle credenziali, inserisci il nome utente e la password per accedere a Oracle Server.

    7. Lascia invariate tutte le altre proprietà.

  5. Fai clic su Avanti.

  6. Configura il target:

    1. Seleziona la destinazione BigQuery.

    2. L'ID progetto e la chiave dell'account di servizio vengono rilevati automaticamente. Mantieni i valori predefiniti così come sono.

    3. (Facoltativo) Nella sezione Avanzate, puoi configurare quanto segue:

      • Nome e posizione del bucket di staging
      • Intervallo di caricamento
      • Prefisso tabella di gestione temporanea
      • Comportamento quando vengono eliminate tabelle o database
  7. Fai clic su Avanti.

  8. Se la connessione viene stabilita, viene visualizzato un elenco di tabelle. Per questo tutorial, seleziona alcune tabelle.

  9. Fai clic su Avanti.

  10. Nella pagina Esamina valutazione, fai clic su Visualizza mappature in una delle tabelle per ottenere una valutazione dei problemi dello schema, delle funzionalità mancanti o dei problemi di connettività che potrebbero verificarsi durante la replica.

    In caso di problemi, devi risolverli prima di procedere. Per questo tutorial, se una delle tabelle presenta problemi, procedi nel seguente modo:

    1. Torna al passaggio in cui hai selezionato le tabelle.
    2. Seleziona una tabella o un evento (inserimenti, aggiornamenti o eliminazioni) senza problemi.

    Per ulteriori informazioni sulle conversioni dei tipi di dati dal database di origine alla destinazione BigQuery, consulta la sezione Tipi di dati di replica.

  11. Fai clic su Back (Indietro).

  12. Fai clic su Avanti.

  13. Esamina i dettagli del job di replica del riepilogo e poi fai clic su Implementa job di replica.

Avviare il job

  1. Nell'interfaccia web di Cloud Data Fusion, vai alla pagina Dettagli del job di replica.

  2. Fai clic su Avvia.

Il job di replica passa dallo stato In fase di provisioning a In fase di avvio a In esecuzione. Nello stato di esecuzione, il job di replica carica uno snapshot iniziale dei dati della tabella selezionata in BigQuery. In questo stato, lo stato della tabella è elencato come Snapshotting. Dopo il caricamento dello snapshot iniziale in BigQuery, tutte le modifiche apportate alla tabella vengono replicate in BigQuery e lo stato della tabella viene visualizzato come In replica.

Monitorare il job

Puoi avviare e interrompere il job di replica, rivedere la sua configurazione e i log e monitorare il job di replica.

Puoi monitorare le attività del job di replica dalla pagina Dettagli del job di replica.

  1. Nella pagina Replicazione, fai clic sul nome del job di replicazione scelto.

  2. Fai clic su Monitoraggio.

Visualizza i risultati in BigQuery

Il job di replica crea un set di dati e una tabella replicati in BigQuery, con nomi ereditati dal database e dalla tabella Oracle corrispondenti.

  1. Nella console Google Cloud , vai alla pagina BigQuery.

  2. Nel riquadro a sinistra, fai clic sul nome del progetto per espandere un elenco di set di dati.

  3. Seleziona il set di dati xe, quindi seleziona una tabella da visualizzare.

Per ulteriori informazioni, consulta la documentazione di BigQuery.