Indexación de metadatos para tablas de BigQuery

En este documento, se describe la indexación de metadatos de columnas en BigQuery y se explica cómo asignar recursos dedicados para mejorar la actualización del índice y el rendimiento de las consultas.

BigQuery indexa automáticamente los metadatos de las tablas de BigQuery que superan 1 GiB. Estos metadatos incluyen la ubicación del archivo, la información de partición y los atributos a nivel de la columna, que BigQuery usa para optimizar y acelerar tus consultas.

De forma predeterminada, la indexación de metadatos en BigQuery es una operación en segundo plano gratuita y no requiere ninguna acción de tu parte. Sin embargo, la actualización del índice depende de los recursos gratuitos disponibles y no tiene objetivos de nivel de servicio (SLO) de rendimiento. Si la actualización del índice es fundamental para tu caso de uso, te recomendamos que configures una reserva de BACKGROUND, que comparte recursos entre los trabajos de optimización en segundo plano.

Cómo ver la hora de actualización del índice de metadatos

Para ver la última hora de actualización del índice de metadatos de una tabla, consulta la columna LAST_METADATA_INDEX_REFRESH_TIME de la vista INFORMATION_SCHEMA.TABLE_STORAGE. Para ello, sigue estos pasos:

  1. En la consola de Google Cloud , ve a la página BigQuery.

    Ir a BigQuery

  2. En el editor de consultas, escribe la siguiente oración:

    SELECT
      project_id,
      project_number,
      table_name,
      last_metadata_index_refresh_time
    FROM
      [PROJECT_ID.]region-REGION.INFORMATION_SCHEMA.TABLE_STORAGE;

    Reemplaza lo siguiente:

    • PROJECT_ID: Es el ID de tu proyecto de Google Cloud . Si no se especifica, se usa el proyecto predeterminado.
    • REGION: La región en la que se encuentra el proyecto, por ejemplo, region-us.
  3. Haz clic en Ejecutar.

Cómo ver el uso del índice de metadatos de la columna

Para ver si se usó el índice de metadatos de la columna después de que se completó un trabajo, verifica la propiedad TableMetadataCacheUsage del recurso Job. Si el campo unusedReason está vacío (no se propagó), se usó el índice de metadatos de columna. Si se completa, el campo explanation que lo acompaña proporciona un motivo por el que no se usó el índice de metadatos de la columna.

También puedes ver el uso del índice de metadatos de columna con el campo metadata_cache_statistics en la vista INFORMATION_SCHEMA.JOBS.

Por ejemplo, el siguiente comando muestra el uso del índice de metadatos de la columna para el trabajo my-job:

SELECT metadata_cache_statistics
FROM `region-US`.INFORMATION_SCHEMA.JOBS
WHERE job_id = 'my-job';

Como otro ejemplo, el siguiente comando muestra la cantidad de trabajos que usaron el índice de metadatos de la columna para la tabla my-table:

SELECT COUNT(*)
FROM
  `region-US`.INFORMATION_SCHEMA.JOBS,
  UNNEST(metadata_cache_statistics.table_metadata_cache_usage) AS stats
WHERE
  stats.table_reference.table_id='my-table' AND
  stats.table_reference.dataset_id='my-dataset' AND
  stats.table_reference.project_id='my-project' AND
  stats.unusedReason IS NULL;

Configura recursos de indexación dedicados

Para configurar recursos para las actualizaciones de indexación de metadatos en tu proyecto, primero debes tener una reserva asignada a tu proyecto. Para ello, sigue estos pasos:

  1. Crea una reserva de BACKGROUND.
  2. Asigna tu proyecto a la reserva.

Después de configurar tu reserva, selecciona uno de los siguientes métodos para asignar intervalos a tu trabajo de indexación de metadatos. De forma predeterminada, las ranuras que asignas de esta manera se comparten con otros trabajos si están inactivas. Para obtener más información, consulta Ranuras inactivas.

Console

  1. En la consola de Google Cloud , ve a la página Administración de capacidad.

    Ir a Administración de capacidad

  2. Haz clic en Acciones de reserva > Crear asignación.

  3. Selecciona tu proyecto de reserva.

  4. Establece Tipo de trabajo en Segundo plano.

  5. Haz clic en Crear.

bq

Usa el comando bq mk

bq mk \
  --project_id=ADMIN_PROJECT_ID \
  --location=LOCATION \
  --reservation_assignment \
  --reservation_id=RESERVATION_NAME \
  --assignee_id=PROJECT_ID \
  --job_type=BACKGROUND \
  --assignee_type=PROJECT

Reemplaza lo siguiente:

  • ADMIN_PROJECT_ID: ID del proyecto del proyecto de administración que posee el recurso de reserva.
  • LOCATION por la ubicación de la reserva.
  • RESERVATION_NAME por el nombre de la reserva.
  • PROJECT_ID: Es el ID del proyecto que se asignará a esta reserva.

SQL

Para asignar una reserva a un proyecto, usa la declaración DDL CREATE ASSIGNMENT.

  1. En la consola de Google Cloud , ve a la página BigQuery.

    Ir a BigQuery

  2. En el editor de consultas, escribe la siguiente sentencia:

    CREATE ASSIGNMENT
    ADMIN_PROJECT_ID.region-LOCATION.RESERVATION_NAME.ASSIGNMENT_ID
    OPTIONS (
      assignee = 'projects/PROJECT_ID',
      job_type = 'BACKGROUND');
    Reemplaza lo siguiente:

    • ADMIN_PROJECT_ID: ID del proyecto del proyecto de administración que posee el recurso de reserva.
    • LOCATION por la ubicación de la reserva.
    • RESERVATION_NAME por el nombre de la reserva.
    • ASSIGNMENT_ID por el ID de la asignación. El ID debe ser único para el proyecto y la ubicación, debe comenzar y terminar con una letra minúscula o un número, y contener solo letras en minúscula, números y guiones.
    • PROJECT_ID: ID del proyecto que contiene las tablas. Este proyecto está asignado a la reserva.
  3. Haz clic en Ejecutar.

Cómo ver la información del trabajo de indexación

Después de configurar tus trabajos de indexación dedicados, puedes ver información sobre ellos con la vista JOBS. En el siguiente ejemplo de SQL, se muestran los cinco trabajos de actualización más recientes en PROJECT_NAME.

SELECT *
FROM
  region-us.INFORMATION_SCHEMA.JOBS
WHERE
  project_id = 'PROJECT_NAME'
  AND SEARCH(job_id, '`metadata_cache_refresh`')
ORDER BY
  creation_time DESC
LIMIT 5;

Reemplaza PROJECT_NAME por el nombre del proyecto que contiene tus trabajos de indexación de metadatos.

Configura alertas de indexación de metadatos

El proceso de alertas de Cloud Monitoring te notifica cuando el rendimiento de BigQuery no cumple con los criterios definidos. Para obtener más información, consulta Descripción general de las alertas. Con la indexación de metadatos, puedes configurar alertas para el uso y la obsolescencia de las ranuras.

Alerta de uso de ranuras

Esta alerta te notifica cuando tu reserva en segundo plano supera un porcentaje definido de su asignación. El valor predeterminado es 95%. Puedes configurar esta alerta para una reserva específica o para todas las reservas en segundo plano. Cuando se activa esta alerta, te recomendamos que aumentes el tamaño de tu reserva.

Para configurar esta alerta para cada reserva en segundo plano, haz lo siguiente:

  1. Si aún no lo hiciste, configura un canal de notificaciones de supervisión.
  2. Ve a la página Integraciones.

    Ir a Integraciones

  3. Busca la integración de BigQuery y haz clic en Ver detalles.

  4. En la pestaña Alertas, selecciona Uso de ranuras: El uso de ranuras de la caché de metadatos en segundo plano es demasiado alto.

  5. Opcional: Para personalizar aún más esta alerta, haz clic en Mostrar opciones > Personalizar política de alertas.

  6. En Configurar notificaciones, selecciona tu canal de notificaciones.

  7. Haz clic en Crear.

Alerta de inactividad

Esta alerta te notifica cuando la inactividad promedio del índice de metadatos de columna aumenta demasiado en comparación con el promedio existente. El umbral predeterminado se activa si el promedio durante 4 horas es más del doble del promedio anterior durante más de 30 minutos. Cuando se active esta alerta, te recomendamos que aumentes el tamaño de tu reserva o que crees una reserva en segundo plano si no tienes una.

Para configurar esta alerta, haz lo siguiente:

  1. Si aún no lo hiciste, configura un canal de notificaciones de Monitoring.
  2. Ve a la página Integraciones.

    Ir a Integraciones

  3. Busca la integración de BigQuery y haz clic en Ver detalles.

  4. En la pestaña Alertas, selecciona Índice de metadatos de columna inactivo: Aumento porcentual excesivo.

  5. Opcional: Para personalizar aún más esta alerta, haz clic en Mostrar opciones > Personalizar política de alertas.

  6. En Configurar notificaciones, selecciona tu canal de notificaciones.

  7. Haz clic en Crear.

Limitaciones

Las mejoras en el rendimiento de las consultas de metadatos solo se aplican a las sentencias SELECT, INSERT y CREATE TABLE AS SELECT. Las declaraciones del lenguaje de manipulación de datos (DML) no verán mejoras con la indexación de metadatos.

¿Qué sigue?