Cette page explique comment créer un flux à l'aide du flux de configuration automatique.
La configuration automatisée des flux simplifie le processus de transfert de données depuis les bases de données gérées Cloud SQL pour PostgreSQL vers BigQuery en réduisant le nombre d'étapes à effectuer. Ce flux vous permet de créer un flux directement à partir de la page "Présentation" de votre instance Cloud SQL pour PostgreSQL. Datastream automatise la sécurisation de la connexion VPC entre le flux et la base de données source, en créant des configurations de base de données et des ressources de connexion de flux.
Avant de commencer
- Activez les API Datastream, Connectivité réseau et Compute Engine.
- Assurez-vous de disposer des autorisations IAM (Identity and Access Management) requises pour créer et gérer les ressources Datastream. Pour en savoir plus, consultez la section suivante.
- Créez et configurez une base de données source Cloud SQL pour PostgreSQL pour la réplication. Pour en savoir plus, consultez Configurer une base de données Cloud SQL pour PostgreSQL pour la CDC.
Nous vous recommandons d'activer la réplication logique pour votre instance avant de créer le flux. Si vous n'activez pas la réplication logique, Datastream le fait pour vous, ce qui redémarre votre instance source.
Pour savoir comment activer la réplication logique pour une instance Cloud SQL pour PostgreSQL, consultez Configurer une base de données Cloud SQL pour PostgreSQL pour la CDC.
Assurez-vous que votre base de données source est configurée pour utiliser l'accès aux services privés.
Autorisations requises
Pour utiliser le flux de création de flux automatisé, vous avez besoin des rôles ou autorisations Identity and Access Management (IAM) suivants :
serviceusage.services.enable,compute.networkAdminpour activer les API requises et effectuer les tâches de configuration réseau.cloudsql.adminpour les tâches de configuration des instances.datastream.adminpour les tâches d'administration que Datastream effectue à votre place.
Votre utilisateur administrateur de base de données doit également disposer des autorisations GRANT pour le schéma que vous souhaitez répliquer. Connectez-vous à votre base de données source et exécutez la commande suivante :
GRANT cloudsqlsuperuser TO "USER_NAME"; ALTER ROLE "USER_NAME" CREATEROLE; GRANT SELECT on ALL TABLES IN SCHEMA "SCHEMA_NAME" to"USER_NAME" WITH GRANT OPTION; ALTER DEFAULT PRIVILEGES IN SCHEMA "SCHEMA_NAME" GRANT SELECT ON TABLES TO "USER_NAME" WITH GRANT OPTION;
Créer et démarrer le flux
Pour créer et démarrer un flux :
Console
Commencer
Accédez à la page "Présentation" de votre instance de base de données Cloud SQL pour PostgreSQL source.
Dans la section Insérer des données en flux continu dans BigQuery, cliquez sur Créer un flux.
Sur la page Premiers pas, indiquez le nom de votre flux dans le champ Nom du flux. Un identifiant unique est renseigné automatiquement.
Dans la section Fournissez les détails du compte utilisateur de l'instance, sélectionnez la méthode d'authentification :
Authentification IAM pour les bases de données : cette option est disponible si l'identité principale Identity and Access Management (IAM) est attribuée à votre utilisateur. Pour en savoir plus, consultez Comptes principaux IAM. Si vous sélectionnez cette option, vous devez accorder manuellement le rôle
cloudsqlsuperuseret l'autorisationCREATEROLEà votre utilisateur :- Dans la console Google Cloud , accédez à la page Instances Cloud SQL.
Accéder à la page Instances Cloud SQL
- Sélectionnez votre instance Cloud SQL.
- Dans le menu de navigation, cliquez sur Cloud SQL Studio, puis connectez-vous.
- Dans le volet Explorateur, exécutez la requête suivante pour votre utilisateur :
GRANT cloudsqlsuperuser TO "USER_NAME"; ALTER ROLE "USER_NAME" CREATEROLE;
- Authentification intégrée à la base de données : indiquez le nom d'utilisateur et le mot de passe d'un utilisateur disposant du rôle
cloudsqlsuperuser. Si vous sélectionnez cette option, assurez-vous que l'utilisateur dispose des autorisationsGRANTsur les tables qu'il souhaite répliquer.
Consultez d'autres détails sur le flux, tels que la région, le chiffrement et les libellés. Développez la section Informations supplémentaires sur le flux pour appliquer les modifications, si nécessaire.
Cliquez sur Continuer.
Configurer la source
- Sur la page Configurer la source du flux, sélectionnez la base de données à partir de laquelle vous souhaitez répliquer les données.
- La liste Objets à inclure sélectionne tous les objets disponibles par défaut. La liste contient les objets pour lesquels vous disposez des autorisations nécessaires pour le streaming. Pour modifier les objets sélectionnés, modifiez les sélections dans la liste.
- Examinez les configurations de flux avancées, telles que le mode de remplissage et le nombre maximal de connexions de remplissage simultanées. Développez la section Configurations avancées du flux pour appliquer les modifications, si nécessaire.
- Cliquez sur Continuer.
Configurer la destination
- Sur la page Configurer la destination, ajustez les paramètres de destination BigQuery si nécessaire. Pour en savoir plus, consultez Configurer des informations sur la destination du flux.
Créer et démarrer le flux
Cliquez sur Créer et démarrer plus tard pour créer votre flux et le démarrer plus tard dans Datastream, ou sur Démarrer pour créer et démarrer votre flux immédiatement.
Vous recevez des notifications concernant les tâches effectuées automatiquement pour vous :
- Datastream crée les ressources de cloud privé virtuel requises, telles que la plage d'adresses IP internes, le sous-réseau et le rattachement de réseau.
- Datastream configure les tables pour la CDC, les emplacements de réplication et une publication pour toutes les tables de la base de données, et crée un utilisateur Datastream dédié.
- Datastream crée une configuration de connectivité privée et des profils de connexion source et de destination.
Confirmez que vous souhaitez créer ou créer et démarrer votre flux.
Surveiller le flux
Vous pouvez surveiller les informations de base sur le flux depuis la page "Présentation" de l'instance source dans la console Google Cloud . La page affiche des informations telles que l'état du flux, son nom, l'ensemble de données BigQuery de destination et l'identifiant du projet de destination.
Sur la page "Vue d'ensemble", vous pouvez également effectuer des actions telles que démarrer, arrêter ou mettre en pause le flux. Pour obtenir des informations de surveillance plus précises, cliquez sur le nom du flux pour accéder à Datastream.
Supprimer le flux
Lorsque vous supprimez un flux que vous avez créé à l'aide du flux automatisé, certaines ressources, telles que l'emplacement de réplication PostgreSQL, sont supprimées automatiquement. Toutefois, vous devez supprimer manuellement certaines ressources :
- La publication. La publication est créée à l'aide de l'utilisateur administrateur de la base de données et ne peut être supprimée que par son propriétaire, c'est-à-dire, par défaut, l'utilisateur qui l'a créée.
- Utilisateur lecteur Datastream.
- Profils de connexion source et de destination Datastream
- Ressources de connectivité privée.
- Toutes les ressources réseau créées lors du flux automatisé, telles que le sous-réseau et l'association réseau.
Étapes suivantes
- Découvrez comment créer manuellement un flux.
- Découvrez comment surveiller les flux.