Google utiliza tecnología de IA para traducir contenido a tu idioma preferido. Las traducciones realizadas con IA pueden contener errores.

Configura una base de datos de Spanner de origen

En esta página, se describe cómo configurar la captura de datos modificados (CDC) para transmitir datos desde una base de datos de Spanner a un destino compatible, como BigQuery o Cloud Storage.

Antes de comenzar

Si tu instancia de Spanner existe en un proyecto Google Cloud que no sea en el que se ejecuta Datastream, debes proporcionar al agente de servicio de Datastream el rol de IAMspanner.databaseReadery, si planeas usar Data Boost, el rolspanner.databaseReaderWithDataBoost.

Si prefieres usar un rol de base de datos de control de acceso detallado, consulta Crea un perfil de conexión y una transmisión de Spanner para conocer los permisos individuales necesarios.

Crear una base de datos de Spanner

Para comenzar a replicar datos de cambios de Spanner, primero debes crear una instancia de Spanner y una base de datos de Spanner.

Crear transmisión de cambios

Spanner usa flujos de cambios para hacer un seguimiento de los cambios en los datos y transmitirlos, como inserciones, actualizaciones y eliminaciones. Para configurar tu fuente de Spanner para la replicación en Datastream, debes crear y configurar un flujo de cambios de Spanner. Debes especificar el NEW_ROW tipo de captura de valor para tu flujo de cambios.

Para obtener más información, consulta la Descripción general de los flujos de cambios.

Crea un perfil de conexión y una transmisión de Spanner

Cuando creas un perfil de conexión de Spanner nuevo, debes especificar la base de datos de Spanner que creaste. El nombre de la base de datos debe tener el siguiente formato:

projects/PROJECT_ID/instances/INSTANCE/databases/DATABASE_ID

Cuando creas una transmisión, puedes proporcionar de forma opcional lo siguiente:

Objetos que se incluirán y excluirán.
Es la cantidad máxima de lecturas simultáneas para las consultas de carga inicial o de flujo de cambios.

Establecer la cantidad máxima de lecturas simultáneas para las consultas de flujo de cambios (el límite de simultaneidad de CDC) podría aumentar la latencia de transmisión. Esto se debe a que los flujos de cambios se dividen en particiones, y limitar la simultaneidad evita que Datastream lea varias particiones de forma simultánea. Te recomendamos que establezcas este valor solo si observaste un uso significativo de la CPU.
Indica si Datastream debe usar Data Boost cuando consulta Spanner.
Es un rol de base de datos de control de acceso detallado que Datastream usa cuando consulta Spanner. Para usar este rol, Datastream necesita, como mínimo, los siguientes permisos de IAM:
- spanner.databases.useRoleBasedAccess
- spanner.databaseRoles.list
- spanner.databases.useDataBoost (si eliges usar Data Boost de Spanner)
Además, el rol de base de datos de Spanner debe tener los siguientes permisos:
- Permisos SELECT para las tablas que se transmiten
- Son permisos detallados para el flujo de cambios. Para obtener más información, consulta Control de acceso detallado para los flujos de cambios.
Es la prioridad de la llamada de procedimiento remoto (RPC) de Spanner que Datastream debe usar.

¿Qué sigue?

Obtén más información sobre Spanner como fuente.