Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Replica dei dati da MySQL a BigQuery

Questo tutorial mostra come creare ed eseguire il deployment di un job che replica continuamente i dati modificati da un database MySQL a una tabella BigQuery.

Obiettivi

In questo tutorial:

Esegui il deployment del database MySQL su Compute Engine.
Configura il database MySQL per abilitare la replica.
Crea ed esegui un job di replica Cloud Data Fusion.
Visualizza i risultati in BigQuery.

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il calcolatore prezzi.

I nuovi utenti di Google Cloud potrebbero avere diritto a una prova senza costi.

Quando viene eseguita la replica, ti vengono addebitati i costi per il cluster Managed Service for Apache Spark e sostieni i costi di elaborazione per BigQuery. Per ottimizzare questi costi, ti consigliamo vivamente di utilizzare i prezzi a tariffa fissa di BigQuery.

Prima di iniziare

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the Cloud Data Fusion, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Crea un'istanza Cloud Data Fusion pubblica nella versione 6.3.0 o successive. Se crei un'istanza privata, configura il peering di rete VPC.
- Quando crei l'istanza, abilita la replica facendo clic su Aggiungi acceleratori e selezionando la casella di controllo Replica.
- Per abilitarlo in un'istanza esistente, vedi Abilitare la replica.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per questo tutorial, consulta Controllo dell'accesso con IAM e Concedere l'autorizzazione di account di servizio account.

Installa MySQL in Compute Engine

Scarica un'immagine Docker del server MySQL.
Carica l'immagine Docker in Artifact Registry.
Esegui il deployment dell'immagine Docker su una nuova istanza VM.

Nota: per eseguire il deployment dell'immagine nella nuova istanza VM, il servizio Compute Engine deve disporre del ruolo Lettore Artifact Registry (roles/artifactregistry.reader).
Nella pagina Dischi di Compute Engine, modifica le dimensioni del disco in 500 GB e riavvia la VM.

Vai a Dischi
Crea un firewall per l'istanza VM.
Installa il database di esempio Sakila.

Abilita la replica nel database MySQL

Per abilitare la replica, configura Change Data Capture (CDC) in MySQL.

Crea ed esegui un job di replica Cloud Data Fusion

Caricare il driver JDBC

Scarica il driver MySQL JDBC (versione 8 o successive) sulla tua macchina locale.
Nell'interfaccia web di Cloud Data Fusion, carica il driver JDBC.

Utilizza questi valori per configurare il driver JDBC:
- Nel campo Nome, inserisci mysql.
- Nel campo Versione, lascia il valore predefinito.
- Nel campo Nome classe, inserisci com.mysql.jdbc.Driver.

Crea il lavoro

Nell'interfaccia web di Cloud Data Fusion, fai clic su Replica.
Fai clic su Crea un job di replica.
Nella pagina Crea nuovo job di replica, specifica un Nome per il job di replica e fai clic su Avanti.
Configura l'origine:
1. Seleziona MySQL come origine.
2. In Host, inserisci il nome host del server MySQL da cui leggere.
3. Per Porta, inserisci la porta da utilizzare per connetterti al server MySQL: 3306.
4. Per Nome plug-in JDBC , seleziona mysql o il nome che hai specificato quando hai configurato il driver JDBC.
5. In Nome database, inserisci sakila.
6. Nella sezione Credenziali, inserisci il tuo nome utente e la password per accedere al server MySQL.
Fai clic su Avanti.
Configura il target:
1. Seleziona la destinazione BigQuery.
2. L'ID progetto e la chiave dell'account di servizio vengono rilevati automaticamente. Mantieni i valori predefiniti.
3. (Facoltativo) Nella sezione Avanzate, configura il nome, la posizione, l'intervallo di caricamento, il prefisso della tabella di gestione temporanea e il comportamento quando le tabelle o i database vengono eliminati.
Fai clic su Avanti.
Se la connessione viene stabilita, viene visualizzato un elenco di tabelle del database di esempio Sakila. Per questo tutorial, seleziona alcune tabelle ed eventi da replicare, come gli eventi Inserisci, Aggiorna ed Elimina.
(Facoltativo) Configura le proprietà avanzate. Per questo tutorial, puoi utilizzare le impostazioni predefinite.
Fai clic su Avanti.
Nella pagina Esamina valutazione, fai clic su Visualizza mappature in una delle tabelle per una valutazione di problemi dello schema, funzionalità mancanti o problemi di connettività che potrebbero verificarsi durante la replica. In caso di problemi, questi devono essere risolti prima di poter procedere. Per questo tutorial, se si verificano problemi con una delle tabelle, torna al passaggio in cui hai selezionato le tabelle e scegli tabelle o eventi (inserimenti, aggiornamenti o eliminazioni) senza problemi.

Per ulteriori informazioni sulle conversioni dei tipi di dati dal database di origine alla destinazione BigQuery, consulta la sezione Tipi di dati di replica.
Fai clic su Avanti.
Esamina i dettagli del job di replica del riepilogo e poi fai clic su Implementa job di replica.

Avviare il job

Nella pagina Dettagli job di replica, fai clic su Avvia.

Il job di replica passa dallo stato In fase di provisioning a In fase di avvio a In esecuzione. Nello stato di esecuzione, il job di replica carica uno snapshot iniziale dei dati della tabella selezionata in BigQuery. In questo stato, lo stato della tabella è elencato come Snapshotting. Dopo il caricamento dello snapshot iniziale in BigQuery, tutte le modifiche apportate alla tabella vengono replicate in BigQuery e lo stato della tabella viene visualizzato come Replica in corso.

Monitora il job

Puoi avviare e interrompere il job di replica, rivedere la sua configurazione e i log e monitorare il job di replica.

Puoi monitorare le attività del job di replica dalla pagina Dettagli job di replica.

Nella pagina Replicazione, fai clic sul nome del job di replicazione.
Fai clic su Monitoraggio.

Visualizza i risultati in BigQuery

Il job di replica crea un set di dati e una tabella replicati in BigQuery, con nomi ereditati dai nomi del database e della tabella MySQL corrispondenti.

Nella console Google Cloud , vai alla pagina BigQuery.

Vai a BigQuery
Nel riquadro a sinistra, seleziona il nome del progetto per espandere un elenco di set di dati.
Per visualizzare i risultati, seleziona il set di dati sakila e una tabella.

Per ulteriori informazioni, consulta la documentazione di BigQuery.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Al termine del tutorial, libera spazio dalle risorse create suGoogle Cloud in modo che non occupino quota e non ti vengano addebitate in futuro. Le seguenti sezioni descrivono come eliminare o disattivare queste risorse.

Elimina l'istanza Cloud Data Fusion

Segui le istruzioni per eliminare l'istanza Cloud Data Fusion.

Elimina il progetto

Attenzione: l'eliminazione di un progetto ha i seguenti effetti:

L'intero contenuto del progetto viene eliminato. Se hai utilizzato un progetto esistente per, le attività descritte in questo documento, eliminerai anche tutto il lavoro che hai svolto nel progetto.
Gli ID progetto personalizzati non sono più disponibili. Quando hai creato questo progetto, potresti aver creato un ID progetto personalizzato che vuoi utilizzare in futuro. Per conservare gli URL che utilizzano l'ID progetto, ad esempio un URL appspot.com, elimina le risorse selezionate all'interno del progetto anziché eliminare l'intero progetto.

Se intendi esplorare più architetture, tutorial o guide rapide, puoi riutilizzare i progetti ed evitare così di superare i limiti di quota.

Nella console Google Cloud , vai alla pagina Gestisci risorse.
Vai a Gestisci risorse
Nell'elenco dei progetti, seleziona quello che vuoi eliminare, quindi fai clic su Elimina.
Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Passaggi successivi

Scopri di più sulla replica in Cloud Data Fusion.
Consulta il riferimento API di replica.
Segui il tutorial per replicare i dati da SQL Server a BigQuery.
Segui il tutorial Replica dei dati da Oracle a BigQuery.