Configura la creación de particiones y el agrupamiento en clústeres para un destino de BigQuery

Si configuras la partición y el agrupamiento en clústeres para tu destino de BigQuery, puedes optimizar el rendimiento de las consultas y controlar los costos. La partición y la agrupación permiten reducir la cantidad de datos que BigQuery necesita analizar durante la ejecución de las consultas.

Partición de tablas

La partición de tablas divide tu tabla en segmentos denominados particiones, lo que facilita la administración y la consulta de tus datos. Para particionar las tablas, especifica una columna de partición que se usará para segmentar la tabla.

Datastream admite tres tipos de particionamiento para tablas de BigQuery:

  • Particionamiento por tiempo de transferencia: Puedes particionar una tabla según el momento en que Datastream transfiere los datos a BigQuery. Puedes seleccionar un nivel de detalle por hora, día, mes o año para la partición por tiempo de transferencia. El nivel de detalle predeterminado es Diario.

  • Particionamiento por unidad de tiempo: Puedes particionar una tabla según una columna de origen de un tipo de datos que Datastream asigna a uno de los siguientes tipos de datos de BigQuery: DATE, DATETIME o TIMESTAMP. Para obtener información sobre cómo Datastream asigna los tipos de datos de origen a los tipos de datos de BigQuery, consulta Asignaciones de tipos de datos en BigQuery.

    Según el tipo de datos de BigQuery al que se asigna la columna de origen, puedes seleccionar uno de los siguientes tipos de granularidad:

    • DAY, MONTH, YEAR: Para el tipo de datos DATE
    • HOUR, DAY, MONTH, YEAR: Para los tipos de datos DATETIME y TIMESTAMP

  • Particionamiento por rango de números enteros: Puedes particionar una tabla por una columna de origen de un tipo de datos que Datastream luego asigna al tipo de datos INTEGER de BigQuery. Deberás proporcionar la siguiente información:

    • Inicio: Es el valor inicial del primer rango de partición (inclusivo).
    • Fin: Es el valor final del último rango de partición (exclusivo).
    • Interval: Es el ancho de cada rango de partición.

    Para obtener más información, consulta Particionamiento por rango de números enteros.

Para obtener más información sobre la partición en BigQuery, consulta Introducción a las tablas particionadas y Administración de tablas particionadas.

Agrupamiento de tablas

La agrupación en clústeres ordena los datos de una tabla según los valores de las columnas de agrupamiento en clústeres y coloca los datos con valores similares. Las consultas que filtran por las columnas agrupadas solo analizan los bloques de datos pertinentes en lugar de la tabla completa o la partición de tabla. Esto puede mejorar el rendimiento de las consultas y reducir sus costos.

Puedes agrupar en clústeres tus tablas de BigQuery con hasta cuatro columnas. El orden en el que especificas las columnas determina el orden de clasificación de los datos.

Puedes agrupar una tabla en clústeres según una columna de origen de un tipo de datos que Datastream asigne a uno de los siguientes tipos de datos de BigQuery:

  • BIGNUMERIC
  • BOOLEAN
  • DATE
  • DATETIME
  • GEOGRAPHY
  • INT64
  • NUMERIC
  • RANGE
  • STRING
  • TIMESTAMP

Para obtener información sobre cómo Datastream asigna los tipos de datos de origen a los tipos de datos de BigQuery, consulta Asignaciones de tipos de datos en BigQuery.

Para obtener más información sobre el agrupamiento en clústeres en BigQuery, consulta Introducción a las tablas agrupadas y Administra tablas agrupadas.

Limitaciones

  • Para conocer las limitaciones de la partición en BigQuery, consulta Introducción a las tablas particionadas.

  • Para conocer las limitaciones de la agrupación en clústeres en BigQuery, consulta Introducción a las tablas agrupadas.

  • Para conocer los límites de cuota que se aplican a las tablas particionadas de BigQuery, consulta Cuotas y límites.

  • Además, se aplican las siguientes limitaciones cuando se usa Datastream:

    • La partición y el agrupamiento en clústeres solo se aplican cuando Datastream crea una tabla nueva de BigQuery. Si quieres configurar o modificar los parámetros de configuración de particionamiento y agrupamiento en clústeres de una tabla que ya existe, primero bórrala de BigQuery y, luego, configura o modifica sus parámetros en Datastream.
    • En el caso de las fuentes de MongoDB, solo puedes particionar tus tablas por tiempo de transferencia.
    • El agrupamiento en clústeres no es compatible con las bases de datos de MongoDB.

¿Qué sigue?