En esta página se ofrece una descripción general del destino de BigQuery. En él se describe el comportamiento de escritura y las limitaciones conocidas de Datastream cuando se replican datos en BigQuery.
Escribir comportamiento
El tamaño máximo de los eventos al transmitir datos a BigQuery es de 20 MB.
Cuando configuras tu flujo, puedes seleccionar la forma en que Datastream escribe tus datos de cambio en BigQuery. Para obtener más información, consulta Configurar el modo de escritura.
Metadatos de tablas
Datastream añade una columna STRUCT llamada datastream_metadata a cada tabla que se escribe en el destino de BigQuery.
Modo de escritura de combinación
Si una tabla tiene una clave principal en la fuente, la columna contiene los siguientes campos:
UUID: este campo tiene el tipo de datosSTRING.SOURCE_TIMESTAMP: este campo tiene el tipo de datosINTEGER.
Si una tabla no tiene una clave principal, la columna contiene un campo adicional: IS_DELETED. Este campo tiene el tipo de datos BOOLEAN e indica si los datos que Datastream envía a la fuente están asociados a una operación DELETE en la fuente. Las tablas sin claves principales solo se pueden añadir.
Modo de escritura de solo anexión
La columna datastream_metadata contiene los mismos campos para las tablas con y sin claves principales:
UUID: este campo tiene el tipo de datosSTRING.SOURCE_TIMESTAMP: este campo tiene el tipo de datosINTEGER.CHANGE_SEQUENCE_NUMBER: este campo tiene el tipo de datosSTRING. Es un número de secuencia interno que usa Datastream para cada evento de cambio.CHANGE_TYPE: este campo tiene el tipo de datosSTRING. Indica el tipo de evento de cambio:INSERT,UPDATE-INSERT,UPDATE-DELETEoDELETE.SORT_KEYS: este campo contiene una matriz de valoresSTRING. Puede usar los valores para ordenar los eventos de cambio.
Controlar los costes de BigQuery
Los costes de BigQuery se cobran por separado de los de Datastream. Para saber cómo controlar los costes de BigQuery, consulta los precios de CDC de BigQuery.
Prácticas recomendadas de gestión de costes
Si usas Datastream con BigQuery como destino, ten en cuenta las siguientes prácticas recomendadas para gestionar los costes:
- Información sobre los costes de la CDC de BigQuery: cuando se usa Datastream con BigQuery como destino, la captura de datos de cambios (CDC) implica operaciones de combinación en segundo plano que se facturan como uso de la SKU de análisis.
- Usa reservas de BigQuery: para gestionar y limitar los costes asociados a las tareas de combinación de CDC, te recomendamos que compres una reserva de ranuras de BigQuery. De esta forma, se ofrece una capacidad fija por un precio fijo, lo que hace que los costes sean más predecibles.
- Ajustar
max_staleness: el parámetromax_stalenessde BigQuery es un equilibrio directo entre la actualización de los datos y el coste. Un valor más bajo significa que las operaciones de combinación serán más frecuentes y los costes, más altos, pero los datos estarán más actualizados. Ajusta este parámetro a un nivel que cumpla los requisitos de tu empresa en cuanto a la actualización de los datos sin superar tu presupuesto. Para obtener más información, consulta Gestionar la antigüedad de las tablas.
Limitaciones conocidas
.Estas son algunas de las limitaciones conocidas al usar BigQuery como destino:
- De forma predeterminada, Datastream no admite la adición de una clave principal a una tabla que ya se ha replicado en BigQuery sin una clave principal, ni la eliminación de una clave principal de una tabla que se ha replicado en BigQuery con una clave principal. Si necesitas hacer estos cambios, ponte en contacto con el equipo de Asistencia de Google. Para obtener información sobre cómo cambiar la definición de la clave principal de una tabla de origen que ya tiene una clave principal, consulta Diagnosticar problemas.
Las claves principales de BigQuery deben ser de los siguientes tipos de datos:
DATEBOOLGEOGRAPHYINT64NUMERICBIGNUMERICSTRINGTIMESTAMPDATETIME
Datastream no replica las tablas que contienen claves principales de tipos de datos no admitidos.
BigQuery no admite nombres de tabla con los caracteres
.,$,/,@ni+. Datastream sustituye estos caracteres por guiones bajos al crear tablas de destino.Por ejemplo,
table.nameen la base de datos de origen se convierte entable_nameen BigQuery.Para obtener más información sobre los nombres de las tablas en BigQuery, consulta la sección Nombres de las tablas.
BigQuery no admite más de cuatro columnas de clustering. Cuando se replica una tabla con más de cuatro columnas de clave principal, Datastream usa cuatro columnas de clave principal como columnas de agrupación.
Datastream asigna literales de fecha y hora fuera de intervalo, como los tipos de fecha infinitos de PostgreSQL, a los siguientes valores:
- Valor positivo de
DATEal valor de9999-12-31 - Negativo de
DATEal valor de0001-01-01 - Valor positivo de
TIMESTAMPal valor de9999-12-31 23:59:59.999000 UTC - Negativo de
TIMESTAMPal valor de0001-01-01 00:00:00 UTC
- Valor positivo de
BigQuery no admite tablas de streaming que tengan claves principales de los tipos de datos
FLOAToREAL. Estas tablas no se replican. Para obtener más información sobre los tipos y los intervalos de fechas de BigQuery, consulta Tipos de datos.Si su fuente es Salesforce, no se admite la opción de configuración Conjunto de datos de cada esquema.
Siguientes pasos
- Consulta cómo replicar datos de una base de datos de origen en conjuntos de datos de BigQuery con Datastream.