Tablas de BigQuery de clústeres y particiones

Si configuras la partición y el agrupamiento en clústeres para tu destino de BigQuery, puedes optimizar el rendimiento de las consultas y controlar los costos. El particionado y la agrupación en clústeres te permiten reducir la cantidad de datos que BigQuery necesita analizar durante la ejecución de la consulta.

Partición de tablas

La partición de tablas divide tu tabla en segmentos denominados particiones, lo que facilita la administración y la consulta de tus datos. Para particionar las tablas, especifica una columna de partición que se usará para segmentar la tabla.

Datastream admite tres tipos de particiones para las tablas de BigQuery:

Particionamiento por tiempo de transferencia: Puedes particionar una tabla según el momento en que Datastream transfiere los datos a BigQuery. Puedes seleccionar un nivel de detalle por hora, día, mes o año para la partición por tiempo de transferencia. El nivel de detalle predeterminado es Diario.
Particionamiento por unidad de tiempo: Puedes particionar una tabla según una columna de origen de un tipo de datos que Datastream asigna a uno de los siguientes tipos de datos de BigQuery: DATE, DATETIME o TIMESTAMP. Para obtener información sobre cómo Datastream asigna los tipos de datos de origen a los tipos de datos de BigQuery, consulta Asignaciones de tipos de datos en BigQuery.

Nota: Cuando configuras el particionado en Google Cloud, el menú desplegable de selección de columnas solo muestra las columnas o los campos de origen aptos para el particionado. Si usas la API de Datastream, Google Cloud CLI o Terraform, la solicitud fallará con un error si intentas usar un tipo de fuente que no se asigne a un tipo de datos de BigQuery apto.

Según el tipo de datos de BigQuery al que se asigna la columna de origen, puedes seleccionar uno de los siguientes tipos de granularidad:
- DAY, MONTH, YEAR: Para el tipo de datos DATE
- HOUR, DAY, MONTH, YEAR: Para los tipos de datos DATETIME y TIMESTAMP
  
  Nota: DAY es el tipo de granularidad predeterminado para todos los tipos de datos aptos.
Particionamiento por rango de números enteros: Puedes particionar una tabla por una columna de origen de un tipo de datos que Datastream luego asigna al tipo de datos INTEGER de BigQuery. Deberás proporcionar la siguiente información:
- Inicio: Es el valor inicial del primer rango de partición (inclusivo).
- Fin: Es el valor final del último rango de partición (exclusivo).
- Interval: Es el ancho de cada rango de partición.
Para obtener más información, consulta Particionamiento por rango de números enteros.

Para obtener información sobre cómo configurar la partición de tu transmisión, consulta Configura la información sobre la base de datos de origen de la transmisión.

Agrupamiento de tablas

La agrupación en clústeres ordena los datos de una tabla según los valores de las columnas de agrupamiento en clústeres y coloca los datos con valores similares en la misma ubicación. Las consultas que filtran por las columnas agrupadas solo analizan los bloques de datos pertinentes en lugar de la tabla completa o la partición de tabla. Esto puede mejorar el rendimiento de las consultas y reducir sus costos.

Puedes agrupar en clústeres tus tablas de BigQuery con hasta cuatro columnas. El orden en el que especificas las columnas determina el orden de clasificación de los datos.

Puedes agrupar una tabla en función de una columna de origen de un tipo de datos que Datastream asigne a uno de los siguientes tipos de datos de BigQuery:

BIGNUMERIC
BOOLEAN
DATE
DATETIME
GEOGRAPHY
INT64
NUMERIC
RANGE
STRING
TIMESTAMP

Para obtener información sobre cómo Datastream asigna los tipos de datos de origen a los tipos de datos de BigQuery, consulta Asignaciones de tipos de datos en BigQuery.

Para obtener información sobre cómo configurar el agrupamiento en clústeres para tu transmisión, consulta Configura la información sobre la base de datos de origen de la transmisión.

Limitaciones

Para conocer las limitaciones de la partición en BigQuery, consulta Introducción a las tablas particionadas.
Para conocer las limitaciones de la agrupación en clústeres en BigQuery, consulta Introducción a las tablas agrupadas.
Para conocer los límites de cuota que se aplican a las tablas particionadas de BigQuery, consulta Cuotas y límites.
Además, se aplican las siguientes limitaciones cuando se usa Datastream:
- La partición y el agrupamiento en clústeres solo se aplican cuando Datastream crea una tabla nueva de BigQuery. Si quieres configurar o modificar los parámetros de configuración de partición y agrupamiento para una tabla que ya existe, primero bórrala de BigQuery y, luego, configura o modifica sus parámetros en Datastream.
- En el caso de las fuentes de MongoDB, solo puedes particionar tus tablas por tiempo de transferencia.
- El agrupamiento en clústeres no es compatible con las bases de datos de MongoDB.

¿Qué sigue?

Para obtener más información sobre la partición en BigQuery, consulta Introducción a las tablas particionadas y Administración de tablas particionadas.
Para obtener más información sobre el agrupamiento en clústeres en BigQuery, consulta Introducción a las tablas agrupadas y Administra tablas agrupadas.
Para obtener más información sobre las transmisiones, consulta Ciclo de vida de las transmisiones.
Para obtener más información sobre cómo crear un flujo, consulta Crea un flujo.
Para obtener más información sobre BigQuery, consulta Destino de BigQuery.