Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Configurer une base de données Spanner source

Cette page explique comment configurer la capture des données modifiées (CDC, change data capture) pour diffuser des données en flux continu depuis une base de données Spanner vers une destination compatible, comme BigQuery ou Cloud Storage.

Avant de commencer

Si votre instance Spanner existe dans un projet Google Cloud autre que celui où Datastream est exécuté, vous devez attribuer le rôle IAMspanner.databaseReaderà l'agent de service Datastream et, si vous prévoyez d'utiliser Data Boost, le rôlespanner.databaseReaderWithDataBoost.

Si vous préférez utiliser un rôle de base de données avec un contrôle précis des accès, consultez Créer un profil de connexion et un flux Spanner pour connaître les autorisations individuelles requises.

Créer une base de données Spanner

Pour commencer à répliquer les données de modification à partir de Spanner, vous devez d'abord créer une instance Spanner et une base de données Spanner.

Créer un flux de modifications

Spanner utilise des flux de modifications pour suivre et diffuser les modifications de données telles que les insertions, les mises à jour et les suppressions. Pour configurer votre source Spanner pour la réplication dans Datastream, vous devez créer et configurer un flux de modifications Spanner. Vous devez spécifier le type de capture de valeur NEW_ROW pour votre flux de modifications.

Pour en savoir plus, consultez Présentation des flux de modifications.

Créer un profil de connexion et un flux Spanner

Lorsque vous créez un profil de connexion Spanner, vous devez spécifier la base de données Spanner que vous avez créée. Le nom de la base de données doit respecter le format suivant :

projects/PROJECT_ID/instances/INSTANCE/databases/DATABASE_ID

Lorsque vous créez un flux, vous pouvez éventuellement fournir les informations suivantes :

Objets à inclure et à exclure.
Nombre maximal de lectures simultanées pour les requêtes de remplissage ou de flux de modifications.

Définir le nombre maximal de lectures simultanées pour les requêtes de flux de modifications (limite de simultanéité CDC) peut augmenter la latence du streaming. En effet, les flux de modifications sont divisés en partitions, et la limitation de la simultanéité empêche Datastream de lire plusieurs partitions simultanément. Nous vous recommandons de définir cette valeur uniquement si vous avez observé une utilisation importante du processeur.
Indique si Datastream doit utiliser Data Boost lors de l'interrogation de Spanner.
Rôle de base de données pour le contrôle précis des accès que Datastream doit utiliser lors de l'interrogation de Spanner. Pour utiliser ce rôle, Datastream a besoin au minimum des autorisations IAM suivantes :
- spanner.databases.useRoleBasedAccess
- spanner.databaseRoles.list
- spanner.databases.useDataBoost (si vous choisissez d'utiliser Spanner Data Boost)
De plus, le rôle de base de données Spanner doit disposer des autorisations suivantes :
- Autorisations SELECT pour les tables en streaming.
- Autorisations précises pour le flux de modifications. Pour en savoir plus, consultez Contrôle des accès précis pour les flux de modifications.
Priorité des appels de procédure à distance (RPC) Spanner à utiliser pour Datastream.

Étapes suivantes

En savoir plus sur Spanner en tant que source