Tablas de BigQuery de clústeres y particiones

Si configuras la partición y el agrupamiento en clústeres para tu destino de BigQuery, puedes optimizar el rendimiento de las consultas y controlar los costos. El particionado y la agrupación en clústeres te permiten reducir la cantidad de datos que BigQuery necesita analizar durante la ejecución de la consulta.

Partición de tablas

La partición de tablas divide tu tabla en segmentos denominados particiones, lo que facilita la administración y la consulta de tus datos. Para particionar las tablas, especifica una columna de partición que se usará para segmentar la tabla.

Datastream admite tres tipos de particiones para las tablas de BigQuery:

  • Particionamiento por tiempo de transferencia: Puedes particionar una tabla según el momento en que Datastream transfiere los datos a BigQuery. Puedes seleccionar un nivel de detalle por hora, día, mes o año para la partición por tiempo de transferencia. El nivel de detalle predeterminado es Diario.

  • Particionamiento por unidad de tiempo: Puedes particionar una tabla según una columna de origen de un tipo de datos que Datastream asigna a uno de los siguientes tipos de datos de BigQuery: DATE, DATETIME o TIMESTAMP. Para obtener información sobre cómo Datastream asigna los tipos de datos de origen a los tipos de datos de BigQuery, consulta Asignaciones de tipos de datos en BigQuery.

    Según el tipo de datos de BigQuery al que se asigna la columna de origen, puedes seleccionar uno de los siguientes tipos de granularidad:

    • DAY, MONTH, YEAR: Para el tipo de datos DATE
    • HOUR, DAY, MONTH, YEAR: Para los tipos de datos DATETIME y TIMESTAMP

  • Particionamiento por rango de números enteros: Puedes particionar una tabla por una columna de origen de un tipo de datos que Datastream luego asigna al tipo de datos INTEGER de BigQuery. Deberás proporcionar la siguiente información:

    • Inicio: Es el valor inicial del primer rango de partición (inclusivo).
    • Fin: Es el valor final del último rango de partición (exclusivo).
    • Interval: Es el ancho de cada rango de partición.

    Para obtener más información, consulta Particionamiento por rango de números enteros.

Para obtener información sobre cómo configurar la partición de tu transmisión, consulta Configura la información sobre la base de datos de origen de la transmisión.

Agrupamiento de tablas

La agrupación en clústeres ordena los datos de una tabla según los valores de las columnas de agrupamiento en clústeres y coloca los datos con valores similares. Las consultas que filtran por las columnas agrupadas solo analizan los bloques de datos pertinentes en lugar de la tabla completa o la partición de tabla. Esto puede mejorar el rendimiento de las consultas y reducir sus costos.

Puedes agrupar en clústeres tus tablas de BigQuery con hasta cuatro columnas. El orden en el que especificas las columnas determina el orden de clasificación de los datos.

Puedes agrupar una tabla en clústeres según una columna de origen de un tipo de datos que Datastream asigne a uno de los siguientes tipos de datos de BigQuery:

  • BIGNUMERIC
  • BOOLEAN
  • DATE
  • DATETIME
  • GEOGRAPHY
  • INT64
  • NUMERIC
  • RANGE
  • STRING
  • TIMESTAMP

Para obtener información sobre cómo Datastream asigna los tipos de datos de origen a los tipos de datos de BigQuery, consulta Asignaciones de tipos de datos en BigQuery.

Para obtener información sobre cómo configurar el agrupamiento en clústeres para tu transmisión, consulta Configura la información sobre la base de datos de origen de la transmisión.

Limitaciones

  • Para conocer las limitaciones de la partición en BigQuery, consulta Introducción a las tablas particionadas.

  • Para conocer las limitaciones de la agrupación en clústeres en BigQuery, consulta Introducción a las tablas agrupadas.

  • Para conocer los límites de cuota que se aplican a las tablas particionadas de BigQuery, consulta Cuotas y límites.

  • Además, se aplican las siguientes limitaciones cuando se usa Datastream:

    • La partición y el agrupamiento en clústeres solo se aplican cuando Datastream crea una tabla nueva de BigQuery. Si quieres configurar o modificar los parámetros de configuración de particionamiento y agrupamiento en clústeres de una tabla que ya existe, primero bórrala de BigQuery y, luego, configura o modifica sus parámetros en Datastream.
    • En el caso de las fuentes de MongoDB, solo puedes particionar tus tablas por tiempo de transferencia.
    • El agrupamiento en clústeres no es compatible con las bases de datos de MongoDB.

¿Qué sigue?