La replica di Cloud Data Fusion consente di creare copie di dati in modo continuo e in tempo reale da datastore operativi, come SQL Server e MySQL, in BigQuery.
Per utilizzare la replica, scegli uno dei seguenti modi:
- Crea una nuova istanza di Cloud Data Fusion e aggiungi l'app Replica.
- Aggiungi l'app Replica a un'istanza esistente.
I vantaggi includono:
Identificazione di incompatibilità dello schema, problemi di connettività e funzionalità mancanti prima di avviare la replica, quindi fornitura di azioni correttive.
Utilizzo dei dati operativi più recenti in tempo reale per l'analisi in BigQuery. Utilizza la replica basata su log direttamente in BigQuery da Microsoft SQL Server (utilizzando SQL Server CDC) e MySQL (utilizzando il log binario MySQL).
Change Data Capture (CDC) che fornisce una rappresentazione dei dati modificati in uno stream, consentendo a calcoli ed elaborazioni di concentrarsi in modo specifico sui record modificati più di recente. In questo modo si riducono al minimo gli addebiti per i dati in uscita sui sistemi di produzione sensibili.
Scalabilità aziendale che supporta i database transazionali ad alto volume. I caricamenti iniziali dei dati in BigQuery sono supportati con la replica di snapshot senza tempi di inattività, per rendere il data warehouse pronto a ricevere le modifiche in modo continuo. Una volta completato lo snapshot iniziale, inizia la replica continua e ad alta velocità effettiva delle modifiche in tempo reale.
Le dashboard ti aiutano a ottenere insight in tempo reale sul rendimento della replica. È utile per identificare i colli di bottiglia e monitorare gli SLA di consegna dei dati.
Inclusione del supporto per la residenza dei dati, le chiavi di crittografia gestite dal cliente (CMEK) e i Controlli di servizio VPC. L'integrazione di Cloud Data Fusion all'interno di Google Cloud garantisce i massimi livelli di sicurezza e privacy aziendale, rendendo disponibili i dati più recenti nel data warehouse per l'analisi.
Prezzi consigliati
Quando la replica è in esecuzione, ti viene addebitato il costo del cluster Managed Service per Apache Spark e vengono addebitati i costi di elaborazione per BigQuery. Per ottimizzare questi costi, ti consigliamo vivamente di utilizzare i prezzi a tariffa fissa di BigQuery.
Per ulteriori informazioni, consulta la pagina dei prezzi di Cloud Data Fusion Pricing.
Entità di replica
| Entità | Descrizione |
|---|---|
| Replica | La replica è una funzionalità di Cloud Data Fusion che consente di replicare i dati in modo continuo con una bassa latenza dai datastore operativi ai data warehouse analitici. Crea un job di replica configurando un origine e una destinazione con trasformazioni facoltative. |
| Origine | Legge gli eventi di modifica di database, tabelle o colonne e li rende disponibili per l'ulteriore elaborazione in un job di replica. Un job di replica contiene un'origine, che si basa su una soluzione di acquisizione delle modifiche per fornire le modifiche. Possono esistere più origini per un database, ognuna con una soluzione di acquisizione delle modifiche diversa. Un'origine è un modulo collegabile creato utilizzando l'architettura dei plug-in di CDAP. Se un'origine non è disponibile per soddisfare le tue esigenze, puoi crearne una implementando l'interfaccia di origine e poi caricarla in CDAP o Cloud Data Fusion. |
| Destinazione | Scrive le modifiche ricevute da un'origine in un database di destinazione. Un job di replica contiene una destinazione. Una destinazione è un modulo collegabile creato utilizzando l'architettura dei plug-in di CDAP. Se una destinazione non è disponibile per soddisfare le tue esigenze, puoi crearne una implementando l'interfaccia di destinazione e poi caricarla in CDAP o Cloud Data Fusion. |
| Proprietà sorgente | Configura l'origine, inclusi i dettagli della connessione, nomi del database e della tabella di origine, credenziali e altre proprietà. |
| Proprietà target | Configura la destinazione, inclusi i dettagli della connessione, i nomi del database e della tabella di destinazione, le credenziali e altre proprietà. |
| Proprietà del job di replica | Configura il job di replica, inclusi le soglie di errore, aree di gestione temporanea, le notifiche e le impostazioni di convalida. |
| Bozza | Un job di replica salvato e completato parzialmente. Una volta completata la definizione del job di replica, è possibile avviarlo. |
| Eventi | Eventi di modifica nell'origine da replicare nella destinazione. Gli eventi includono inserimenti, aggiornamenti, eliminazioni e modifiche DDL (Data Definition Language) changes. |
| Inserisci | Aggiunta di nuovi record nell'origine. |
| Aggiorna | Aggiornamento dei record esistenti nell'origine. |
| Elimina | Rimozione dei record esistenti nell'origine. |
| Modifica DDL | Un evento che contiene una modifica dello schema, ad esempio una modifica del tipo di dati o del nome. |
| Log | I log operativi di un job di replica. |
| Dettagli del job di replica | Una pagina dei dettagli con informazioni sul job di replica, come lo stato attuale, metriche operative, visualizzazione della cronologia nel tempo, risultati della convalida e configurazione. |
| Dashboard | Una pagina che elenca lo stato di tutte le attività di Change Data Capture (CDC), inclusi throughput, latenza, tassi di errore e risultati della convalida. |
Azioni
| Azioni | Descrizione |
|---|---|
| Esegui il deployment | Creazione di un nuovo job di replica seguendo un flusso dell'interfaccia web per specificare un'origine, una destinazione e la relativa configurazione. |
| Salva | Salvataggio di un job di replica creato parzialmente per riprendere la creazione in un secondo momento. |
| Elimina | Eliminazione di un job di replica esistente. È possibile eliminare solo le pipeline arrestate. |
| Inizia | Avvio di un job di replica. Se sono presenti modifiche da elaborare, il job di replica passa allo stato `active`; in caso contrario, passa allo stato `waiting`. |
| Interrompi | Arresto di un job di replica. Il job di replica interrompe l'elaborazione delle modifiche dall'origine. |
| Visualizza i log | Visualizzazione dei log di un job di replica per il debug o altre analisi. |
| Cerca | Ricerca di un job di replica in base al nome, alla descrizione, o ad altri metadati del job di replica. |
| Valuta | Valutazione dell'impatto della replica prima di avviarla. La valutazione di un job di replica genera un report di valutazione che segnala le incompatibilità dello schema e le funzionalità mancanti. |
Monitoraggio
| Stati del replicatore | Descrizione |
|---|---|
| Deployment eseguito | Il job di replica è stato eseguito, ma non è stato avviato. In questo stato, un job di replica non replica gli eventi. |
| In fase di avvio | Il job di replica è in fase di inizializzazione e non è pronto per replicare le modifiche. |
| In esecuzione | Il job di replica è stato avviato e sta replicando modifiche. |
| In fase di arresto | Il job di replica è in fase di arresto. |
| Interrotta | Il job di replica è stato interrotto. |
| Non riuscito | Il job di replica non è riuscito a causa di errori irreversibili. |
Stati delle tabelle
| Concetto | Descrizione |
|---|---|
| In fase di creazione dello snapshot | Il job di replica sta creando uno snapshot dello stato attuale della tabella prima di replicare le modifiche. |
| In fase di replica | Il job di replica sta replicando le modifiche dalla tabella di origine alla tabella di destinazione. |
| In errore | Il job di replica non riesce a replicare le modifiche dalla tabella di origine a causa di un errore. |
Metriche
| Concetto | Descrizione |
|---|---|
| Inserti | Il numero di inserimenti applicati alla destinazione nel periodo di tempo selezionato. |
| Aggiornamenti | Il numero di aggiornamenti applicati alla destinazione nel periodo di tempo selezionato. |
| Eliminazioni | Il numero di eliminazioni applicate alla destinazione nel periodo di tempo selezionato. |
| DDL | Il numero di modifiche DDL applicate alla destinazione nel periodo di tempo selezionato. |
| Velocità effettiva | Il numero di eventi e il numero di byte replicati nella destinazione nel periodo di tempo selezionato. |
| Latenza | La latenza con cui i dati vengono replicati nella destinazione nel periodo di tempo selezionato. |
Componenti
| Componente | Descrizione |
|---|---|
| Servizio | Supervisiona l'orchestrazione end-to-end dei job di replica, e fornisce funzionalità per la progettazione, il deployment, la gestione e il monitoraggio dei job di replica. Viene eseguito all'interno del progetto tenant di Cloud Data Fusion (il progetto tenant è nascosto all'utente). Il suo stato viene visualizzato nella pagina **Amministratore di sistema** di l'interfaccia web di Cloud Data Fusion. |
| Gestione dello stato | Il servizio gestisce lo stato di ogni job di replica in un bucket Cloud Storage nel progetto del cliente. Il bucket può essere configurato durante la creazione del job di replica. Memorizza gli offset attuali e lo stato di replica di ogni job di replica. |
| Esecuzione | I cluster Managed Service per Apache Spark forniscono l'ambiente di esecuzione dei job di replica, che vengono eseguiti nel tuo progetto. I job di replica vengono eseguiti utilizzando i worker CDAP. Le dimensioni e le caratteristiche dell'ambiente di esecuzione vengono configurate con i profili Compute Engine. |
| Database di origine | Il database operativo di produzione che esegue la replica nel database di destinazione. Questo database può essere on-premise o su Google Cloud. La replica di Cloud Data Fusion supporta i database di origine MySQL, Microsoft SQL Server e Oracle. |
| Soluzione di monitoraggio delle modifiche | Anziché essere eseguito su un agente in esecuzione sul database di origine,
Cloud Data Fusion si basa su una soluzione di monitoraggio delle modifiche per
leggere le modifiche nel database di origine. La soluzione può essere un componente del
il database di origine o una soluzione di terze parti con licenza separata. In quest'ultimo caso, la soluzione di monitoraggio delle modifiche viene eseguita
on-premise, in colocation con il database di origine o su
Google Cloud. Ogni origine deve essere associata a una soluzione di monitoraggio delle modifiche.
|
| Database di destinazione | La località di destinazione per la replica e l'analisi. Cloud Data Fusion supporta il database di destinazione BigQuery. |
| Autenticazione | I meccanismi di autenticazione variano a seconda del database di origine o software di monitoraggio delle modifiche. Quando utilizzi le funzionalità integrate dei database di origine, come SQL Server e MySQL, per l'autenticazione vengono utilizzati gli accessi al database. Quando utilizzi il software di monitoraggio delle modifiche, viene utilizzato il meccanismo di autenticazione del software. |
Connettività
La tabella seguente descrive le connessioni di rete richieste per la replica e i meccanismi di sicurezza utilizzati.
| Da | A | Facoltativo | Protocollo | Rete | Sicurezza di autenticazione | Finalità |
|---|---|---|---|---|---|---|
| Servizio (progetto tenant) | Database di origine | Sì | Dipende dall'origine della replica. JDBC per la connessione diretta al database. | Peering + regole firewall + VPN/Interconnect + router | Accesso al database | Necessario in fase di progettazione, non di esecuzione. Funzioni: elenco delle tabelle, valutazione (passaggi facoltativi; la replica può continuare senza di essi) |
| Servizio (progetto tenant) | Cloud Storage | No | API Cloud | VPC-SC | IAM | Gestione dello stato: offset, stati di replica |
| Managed Service per Apache Spark (il tuo progetto) | Database di origine | No | Dipende dall'origine. JDBC per la connessione diretta al database. | Peering + regole firewall + VPN/Interconnect + router | Accesso al database | Necessario in fase di esecuzione, per leggere le modifiche dal database di origine da replicare nella destinazione |
| Managed Service per Apache Spark (il tuo progetto) | Cloud Storage | No | API Cloud | VPC-SC | IAM | Gestione dello stato: offset, stati di replica |
| Managed Service per Apache Spark (il tuo progetto) | BigQuery | No | API Cloud | VPC-SC | IAM | Necessario in fase di esecuzione per applicare le modifiche dal database di origine alla destinazione |
Passaggi successivi
- Consulta il riferimento API di replica.
- Consulta i mapping dei tipi di dati per la replica.