Cette page décrit les bonnes pratiques à suivre dans le cas où vous avez configuré la réplication Datastream vers BigQuery, mais que vous avez défini l'ensemble de données de destination dans une région incorrecte. Vous souhaitez ensuite déplacer l'ensemble de données vers une autre région (ou multirégion) sans avoir à synchroniser à nouveau toutes les données de la base de données source vers BigQuery.
Avant de commencer
Avant de commencer à migrer vos données vers une autre région, tenez compte des points suivants :
- La migration prend du temps et vous devez suspendre temporairement le flux pendant l'opération. Pour préserver l'intégrité des données, la base de données source doit conserver les journaux des modifications lorsque le flux est mis en veille. Pour estimer la durée de la pause du flux, combinez la valeur de
max_stalenessdans l'ensemble de données et l'opération de fusion la plus longue :- Pour savoir combien de temps peut prendre la fin des opérations de fusion, consultez Valeur
max_stalenessrecommandée pour une table. - Pour trouver la valeur
max_stalenessmaximale dans l'ensemble de données, consultez Déterminer la valeurmax_stalenessactuelle d'une table et adaptez la requête à vos besoins spécifiques. - Si la durée de pause estimée est trop longue pour être prise en charge par votre base de données source, vous pouvez envisager de réduire temporairement la valeur de
max_stalenesspour les tables de l'ensemble de données.
- Pour savoir combien de temps peut prendre la fin des opérations de fusion, consultez Valeur
- Vérifiez que l'utilisateur qui effectue la migration dispose de suffisamment de ressources BigQuery dans la région de destination (réservation de requêtes et réservation en arrière-plan). Pour en savoir plus sur les réservations, consultez Attributions de réservation.
- Vérifiez que l'utilisateur qui effectue la migration dispose des autorisations suffisantes pour effectuer cette opération, telles que les contrôles IAM (Identity and Access Management) ou VPC Service Controls.
Étapes de migration
Pour lancer la migration de l'ensemble de données, utilisez la réplication des données BigQuery :
Dans la console Google Cloud , accédez à la page BigQuery Studio.
Créez une réplique de l'ensemble de données BigQuery dans la nouvelle région :
ALTER SCHEMA DATASET_NAME ADD REPLICA 'NEW_REGION' OPTIONS(location='NEW_REGION');Remplacez les éléments suivants :
- DATASET_NAME : nom de l'ensemble de données que vous souhaitez créer.
- NEW_REGION : nom de la région dans laquelle vous souhaitez créer votre ensemble de données. Exemple :
region-us
Surveillez la progression de la migration et attendez que le filigrane de copie dans le réplica soit à quelques minutes de celui du primaire. Vous pouvez exécuter cette requête sur BigQuery INFORMATION_SCHEMA pour vérifier la progression de la migration :
SELECT catalog_name as project_id, schema_name as dataset_name, replication_time as dataset_replica_staleness FROM 'NEW_REGION'.INFORMATION_SCHEMA.SCHEMATA_REPLICAS WHERE catalog_name = PROJECT_ID AND schema_name = DATASET_NAME AND location = NEW_REGION;Remplacez les éléments suivants :
- PROJECT_ID : ID de votre projet Google Cloud .
- DATASET_NAME : nom de votre ensemble de données.
- DATASET_REPLICA_STALENESS : configuration de l'obsolescence des tables dans la réplique de l'ensemble de données que vous avez créée.
- NEW_REGION : région dans laquelle vous avez créé votre ensemble de données.
Mettez en veille le flux Datastream existant. Pour en savoir plus, consultez Mettre en veille le flux.
Attendez que le flux soit vidé et notez l'heure à laquelle il est passé à l'état
PAUSED.Vérifiez que les dernières modifications CDC ont été appliquées à la table BigQuery en consultant le
upsert_stream_apply_watermarkde la table. Exécutez la requête suivante et assurez-vous que le code temporel du filigrane est 10 minutes après la mise en veille du flux :SELECT table_name, upsert_stream_apply_watermark FROM DATASET_NAME.INFORMATION_SCHEMA.TABLESPour exécuter la requête uniquement pour une table spécifique, ajoutez la clause
WHEREsuivante :WHERE table_name = 'TABLE_NAME'Remplacez les éléments suivants :
- DATASET_NAME : nom de votre ensemble de données.
- TABLE_NAME (facultatif) : Table pour laquelle vous souhaitez vérifier le
upsert_stream_apply_watermark.
Utilisez la requête de l'étape 3 pour vérifier que le nouveau filigrane de copie de région est postérieur à celui de
upsert_stream_apply_watermarkcapturé à l'étape 6.Vous pouvez également comparer manuellement plusieurs tables de l'ensemble de données principal dans la région d'origine avec la réplique dans la nouvelle région pour vérifier que toutes les données ont été correctement copiées.
Promouvez la réplique de l'ensemble de données BigQuery en exécutant la commande suivante dans BigQuery Studio :
ALTER SCHEMA DATASET_NAME SET OPTIONS(primary_replica = 'NEW_REGION');Remplacez les éléments suivants :
- DATASET_NAME : nom de votre ensemble de données.
- NEW_REGION : région dans laquelle vous avez créé votre ensemble de données.
Si vous n'avez plus besoin de l'ensemble de données d'origine (qui est désormais la réplique) et que vous ne souhaitez pas payer de frais supplémentaires, accédez à BigQuery Studio et supprimez l'ensemble de données BigQuery d'origine :
ALTER SCHEMA DATASET_NAME DROP REPLICA IF EXISTS ORIGINAL_REGION;Remplacez les éléments suivants :
- DATASET_NAME : nom de l'ensemble de données d'origine.
- ORIGINAL_REGION : région de l'ensemble de données d'origine.
Créez un flux avec exactement la même configuration, mais avec un nouvel emplacement de destination BigQuery.
Démarrez la nouvelle diffusion.
Pour éviter de répliquer des événements en double, démarrez le flux à partir d'une position spécifique :
- Pour les sources MySQL et Oracle : vous pouvez identifier la position du journal en examinant les journaux du flux d'origine et en recherchant la dernière position à partir de laquelle le flux a été lu avec succès. Pour savoir comment démarrer le flux à partir d'une position spécifique, consultez Gérer les flux.
- Pour les sources PostgreSQL : le nouveau flux commence à lire les modifications à partir du premier numéro de séquence de journal (LSN) dans l'emplacement de réplication. Étant donné que le flux d'origine a peut-être déjà traité certaines de ces modifications, modifiez manuellement le pointeur de l'emplacement de réplication pour qu'il pointe vers le dernier LSN à partir duquel Datastream a lu les données. Vous trouverez ce numéro de séquence de journalisation dans les journaux des consommateurs Datastream.
Vous pouvez également supprimer le flux d'origine.