Questa pagina descrive le best practice per un caso d'uso in cui hai configurato la replica Datastream in BigQuery, ma hai configurato il set di dati di destinazione in una regione errata. Poi vuoi spostare il set di dati in un'altra regione (o multiregione) senza dover sincronizzare nuovamente tutti i dati dal database di origine a BigQuery.
Prima di iniziare
Prima di iniziare la migrazione dei dati in un'altra regione, tieni presente quanto segue:
- La migrazione richiede tempo e devi mettere in pausa temporaneamente lo stream durante l'operazione. Per mantenere l'integrità dei dati, il database di origine deve conservare i
log delle modifiche quando lo stream viene messo in pausa. Per stimare la durata della pausa dello stream,
combina il valore di
max_stalenessnel set di dati e l'operazione di unione con la durata più lunga:- Per informazioni sul tempo necessario per il completamento delle operazioni di unione, vedi Valore consigliato per
max_stalenessdella tabella. - Per trovare il valore massimo di
max_stalenessnel set di dati, consulta Determinare il valore attuale dimax_stalenessdi una tabella e adatta la query alle tue esigenze specifiche. - Se la pausa stimata è troppo lunga per essere supportata dal database di origine,
ti consigliamo di ridurre temporaneamente il valore di
max_stalenessper le tabelle nel set di dati.
- Per informazioni sul tempo necessario per il completamento delle operazioni di unione, vedi Valore consigliato per
- Verifica che l'utente che esegue la migrazione disponga di risorse BigQuery sufficienti nella regione di destinazione (prenotazione query e prenotazione in background). Per ulteriori informazioni sulle prenotazioni, consulta Assegnazioni di prenotazioni.
- Verifica che l'utente che esegue la migrazione disponga di autorizzazioni sufficienti per eseguire questa operazione, ad esempio controlli Identity and Access Management (IAM) o Controlli di servizio VPC.
Passi per la migrazione
Per avviare la migrazione del set di dati, utilizza la replica dei dati BigQuery:
Nella console Google Cloud , vai alla pagina BigQuery Studio.
Crea una replica del set di dati BigQuery nella nuova regione:
ALTER SCHEMA DATASET_NAME ADD REPLICA 'NEW_REGION' OPTIONS(location='NEW_REGION');Sostituisci quanto segue:
- DATASET_NAME: il nome del set di dati che vuoi creare.
- NEW_REGION: il nome della regione in cui vuoi creare il
set di dati. Ad esempio,
region-us.
Monitora l'avanzamento della migrazione e attendi che la filigrana di copia nella replica sia a pochi minuti di distanza da quella del database primario. Puoi eseguire questa query su BigQuery INFORMATION_SCHEMA per controllare l'avanzamento della migrazione:
SELECT catalog_name as project_id, schema_name as dataset_name, replication_time as dataset_replica_staleness FROM 'NEW_REGION'.INFORMATION_SCHEMA.SCHEMATA_REPLICAS WHERE catalog_name = PROJECT_ID AND schema_name = DATASET_NAME AND location = NEW_REGION;Sostituisci quanto segue:
- PROJECT_ID: l'ID del tuo Google Cloud progetto.
- DATASET_NAME: il nome del tuo set di dati.
- DATASET_REPLICA_STALENESS: la configurazione di obsolescenza delle tabelle nella replica del set di dati che hai creato.
- NEW_REGION: la regione in cui hai creato il set di dati.
Metti in pausa lo stream Datastream esistente. Per saperne di più, consulta Mettere in pausa lo stream.
Attendi che lo stream si esaurisca e annota l'ora in cui è entrato nello stato
PAUSED.Verifica che le ultime modifiche CDC siano state applicate alla tabella BigQuery controllando
upsert_stream_apply_watermarkdella tabella. Esegui la query seguente e assicurati che il timestamp della filigrana sia 10 minuti dopo la pausa dello stream:SELECT table_name, upsert_stream_apply_watermark FROM DATASET_NAME.INFORMATION_SCHEMA.TABLESPer eseguire la query solo per una tabella specifica, aggiungi la seguente clausola
WHERE:WHERE table_name = 'TABLE_NAME'Sostituisci quanto segue:
- DATASET_NAME: il nome del tuo set di dati.
- TABLE_NAME: facoltativo. La tabella per cui vuoi controllare il
upsert_stream_apply_watermark.
Utilizza la query del passaggio 3 per verificare che la filigrana della nuova copia della regione sia successiva a
upsert_stream_apply_watermarkacquisita nel passaggio 6.(Facoltativo) Confronta manualmente diverse tabelle nel set di dati principale nella regione originale con la replica nella nuova regione per verificare che tutti i dati siano copiati correttamente.
Promuovi la replica del set di dati BigQuery eseguendo il seguente comando in BigQuery Studio:
ALTER SCHEMA DATASET_NAME SET OPTIONS(primary_replica = 'NEW_REGION');Sostituisci quanto segue:
- DATASET_NAME: il nome del tuo set di dati.
- NEW_REGION: la regione in cui hai creato il set di dati.
Se vuoi, se non hai più bisogno del set di dati originale (ora la replica) e non vuoi sostenere costi aggiuntivi, vai a BigQuery Studio ed elimina il set di dati BigQuery originale:
ALTER SCHEMA DATASET_NAME DROP REPLICA IF EXISTS ORIGINAL_REGION;Sostituisci quanto segue:
- DATASET_NAME: il nome del set di dati originale.
- ORIGINAL_REGION: la regione del set di dati originale.
Crea un nuovo stream con la stessa configurazione, ma con una nuova località di destinazione BigQuery.
Avvia il nuovo stream.
Per evitare di replicare eventi duplicati, avvia lo stream da una posizione specifica:
- Per le origini MySQL e Oracle, puoi identificare la posizione del log esaminando i log dello stream originale e trovando l'ultima posizione da cui lo stream ha letto correttamente. Per informazioni su come avviare lo stream da una posizione specifica, vedi Gestire gli stream.
- Per le origini PostgreSQL: il nuovo flusso inizia a leggere le modifiche dal primo numero di sequenza di log (LSN) nello slot di replica. Poiché lo stream originale potrebbe aver già elaborato alcune di queste modifiche, modifica manualmente il puntatore dello slot di replica all'ultimo LSN da cui Datastream ha letto. Puoi trovare questo LSN nei log consumer di Datastream.
(Facoltativo) Elimina lo stream originale.