Cómo funciona BigLake

En esta página, se describe la arquitectura técnica de BigLake, se proporcionan detalles sobre cómo se controlan las consultas y cómo el almacén de metadatos de BigLake admite la interoperabilidad entre los motores.

Arquitectura

Un data lakehouse compilado con BigLake consta de los siguientes componentes:

  • Almacenamiento: Cloud Storage y el almacenamiento de BigQuery actúan como la capa de almacenamiento, y Apache Iceberg es el formato de tabla abierta recomendado para Cloud Storage.
  • Almacén de metadatos: BigLake Metastore proporciona una sola fuente de información para administrar metadatos en varios motores.
  • Motor de consultas: BigQuery, Apache Spark, Apache Flink, Trino y otros motores de código abierto son compatibles con BigLake.
  • Administración: Dataplex Universal Catalog proporciona políticas de seguridad y administración centralizadas.
  • Herramientas de escritura y análisis de datos: Los motores y las herramientas integrados en BigLake proporcionan múltiples rutas para la transferencia y el análisis de datos.

Jerarquía de recursos

BigLake organiza los datos con la jerarquía estándar de Apache Iceberg. Esta estructura asigna conceptos lógicos de la base de datos a rutas de almacenamiento físicas.

  1. Servicio de Metastore: Es el recurso regional de nivel superior enGoogle Cloud.
  2. Catálogo: Es un contenedor para agrupar bases de datos, que corresponden a proyectos.
  3. Espacio de nombres: Es una agrupación lógica de tablas. En BigQuery, esto se asigna a un conjunto de datos.
  4. Tabla: Es la entidad específica que apunta a los datos en Cloud Storage. Los metadatos de la tabla contienen información como el esquema de la tabla, la información de partición, las propiedades personalizadas y un puntero al estado actual de la tabla a través de un archivo metadata.json.

Secuencia de procesamiento de consultas

Cuando envías una consulta a una tabla de BigLake, la solicitud sigue una ruta específica para aplicar políticas antes de que se lean los datos.

  1. Solicitud: Envías una consulta en SQL a un motor (por ejemplo, Spark).
  2. Búsqueda de metadatos: El motor envía una solicitud al almacén de metadatos de BigLake para resolver la tabla.
  3. Autenticación y política: El almacén de metadatos te autentica y verifica los permisos.
  4. Respuesta: El metastore devuelve los metadatos y, de forma opcional, un token de almacenamiento al motor. Los tokens de almacenamiento solo se usan cuando está habilitada la venta de credenciales.
  5. Lectura: El motor usa el token para leer archivos directamente desde el almacenamiento.
  6. Procesamiento: El motor procesa los datos y devuelve los resultados.

BigLake Metastore

BigLake Metastore es un metastore completamente administrado y sin servidores para tu lakehouse enGoogle Cloud. Proporciona una sola fuente de información para los metadatos de varias fuentes y se puede acceder a ella desde BigQuery y varios motores de procesamiento de datos abiertos, lo que elimina la necesidad de sincronizar los metadatos entre diferentes repositorios.

BigLake Metastore es compatible con Dataplex Universal Catalog, que proporciona controles de acceso unificados y detallados en todos los motores compatibles, y admite la administración de extremo a extremo con linaje, calidad de los datos y capacidad de detección.

Tipos de tablas

Cuando compilas un lakehouse en BigLake, tienes varias opciones para el formato y la administración de tus tablas:

  • Tablas de BigLake Iceberg: Tablas de Iceberg creadas a partir de motores de código abierto y almacenadas en Cloud Storage.
  • Tablas de BigLake Iceberg en BigQuery: Tablas de Iceberg creadas a partir de BigQuery. Los metadatos de estas tablas se almacenan en el catálogo de BigQuery y solo se puede acceder a ellos a través de la federación del catálogo de BigQuery, mientras que los datos de la tabla y los metadatos físicos se almacenan en Cloud Storage.
  • Tablas estándar de BigQuery: Tablas administradas por completo por BigQuery que se pueden conectar al metastore de BigLake.
  • Tablas externas: Tablas fuera del metastore de BigLake en las que los datos y los metadatos se administran por sí mismos.

Para obtener una comparación detallada de estas opciones, consulta la Descripción general de la tabla.

¿Qué sigue?