En este documento, se definen los términos y conceptos clave de BigLake.
Esta página no es una lista exhaustiva de funciones, sino una referencia general de los términos y conceptos que se usan en toda la documentación de BigLake.
Conceptos básicos
Los siguientes conceptos forman la base de la arquitectura de BigLake.
Data Lakehouse
Un data lakehouse es una arquitectura de datos que combina la rentabilidad y la flexibilidad de un data lake con las estructuras de administración y rendimiento de datos de un almacén de datos. BigLake permite una arquitectura de lakehouse, ya que te permite conservar los datos en formatos abiertos en Cloud Storage mientras usas funciones de BigQuery, como seguridad detallada y consultas de alto rendimiento.
Interoperabilidad abierta
La interoperabilidad abierta es la capacidad de múltiples sistemas analíticos y transaccionales, como BigQuery, Spark y Flink, para operar en una sola copia de datos en formatos abiertos, como Apache Iceberg. Esto elimina la necesidad de duplicar datos y garantiza una vista coherente de los datos en diferentes herramientas.
BigLake Metastore
BigLake Metastore es un servicio de metadatos centralizado y sin servidores que actúa como la única fuente de información para tu lakehouse. Permite que varios motores, como Spark, Flink y BigQuery, descubran y consulten las mismas tablas de forma simultánea.
Tipos de catálogos
El metastore de BigLake ofrece dos tipos diferentes de catálogos para administrar tus metadatos. La elección del catálogo es una decisión fundamental que afecta la forma en que interactúas con tus datos.
Catálogo de REST de Iceberg
Este es un catálogo basado en la especificación del catálogo REST de Apache Iceberg. Proporciona interoperabilidad entre los motores de código abierto y BigQuery, y admite funciones como la venta de credenciales y la recuperación ante desastres.
Catálogo de Iceberg personalizado para BigQuery
Esta es una integración que usa BigQuery directamente como metastore de respaldo.
Formatos de tabla
BigLake admite varios formatos de tabla, según el motor que se use para administrar los datos.
Tablas de BigLake Iceberg en BigQuery
Son tablas de Iceberg que creas desde BigQuery y almacenas en Cloud Storage. BigQuery controla todo el diseño y la optimización de los datos. Si bien varios motores pueden leer estas tablas, BigQuery es el único que puede escribir en ellas directamente.
Tablas de BigLake Iceberg
Son tablas de Iceberg creadas a partir de motores de código abierto y almacenadas en Cloud Storage. El metastore de BigLake funciona como el catálogo central. El motor de código abierto que creó la tabla es el único que puede escribir en ella.
Tablas estándar de BigQuery
BigQuery administra estas tablas y almacena los datos en el almacenamiento de BigQuery. Puedes conectar estas tablas a BigLake Metastore.
Tablas externas
Las tablas externas residen fuera del metastore de BigLake. Los datos y los metadatos se administran por sí mismos en un catálogo de terceros. BigQuery solo puede leer datos de estas tablas.
Funciones de tabla
BigLake proporciona varias funciones que simplifican la administración de datos y mejoran el rendimiento de las consultas para las tablas de Iceberg.
Evolución de la tabla
BigLake admite la evolución de tablas de Iceberg, lo que te permite cambiar el esquema o la especificación de partición de una tabla con el tiempo sin volver a escribir los datos de la tabla ni volver a crearla.
Viaje en el tiempo
El viaje en el tiempo te permite consultar los datos de una tabla tal como existían en un momento específico o en un ID de instantánea. Esto es útil para auditar, reproducir experimentos o restablecer datos después de una eliminación accidental.
Almacenamiento de metadatos en caché
El almacenamiento en caché de metadatos es una función que acelera el rendimiento de las consultas en las tablas externas de BigLake. Almacena una copia de los metadatos de la tabla en el almacenamiento de BigQuery, lo que reduce la necesidad de leer archivos de metadatos de Cloud Storage durante la ejecución de la consulta.
Mantenimiento automático de tablas
El mantenimiento automático de tablas simplifica la administración del lakehouse, ya que automatiza tareas como la compactación y la recolección de elementos no utilizados para las tablas administradas. Esto garantiza un rendimiento óptimo de las consultas y eficiencia de almacenamiento sin intervención manual.
Conceptos de interoperabilidad
La interoperabilidad proporciona acceso a los datos en Google Cloud y en sistemas de código abierto.
Federación de catálogos
La federación de catálogos es una función del catálogo REST de Iceberg que permite administrar y consultar tablas visibles para BigQuery, incluidas las tablas creadas con el catálogo personalizado de Iceberg.
Estructura de nomenclatura de P.C.N.T
La estructura de nombres de P.C.N.T. es la convención de cuatro partes que se usa para identificar y consultar de forma única las tablas en el metastore de BigLake desde BigQuery. Significa Project.Catalog.Namespace.Table:
- Proyecto: ID del proyecto Google Cloud
- Catálogo: Es el nombre del catálogo de BigLake Metastore.
- Espacio de nombres: Es la agrupación lógica de tablas (similar a un conjunto de datos).
- Tabla: Es el nombre de la tabla de datos.
Conceptos de seguridad
Las funciones de seguridad proporcionan mecanismos para la administración del acceso y la protección de datos.
Conexiones
Una conexión es un recurso de BigQuery que almacena credenciales para acceder a datos externos. En BigLake, las conexiones delegan el acceso a Cloud Storage permitiendo que la cuenta de servicio de la conexión acceda al bucket de almacenamiento en tu nombre.
Venta de credenciales
La venta de credenciales es un mecanismo de seguridad que ayuda a reforzar el control de acceso cuando se usa el catálogo REST de Iceberg. Cuando está habilitado, BigLake genera credenciales de alcance reducido y de corta duración diseñadas para otorgar acceso solo a las rutas de archivos específicas requeridas para una consulta, en lugar de pasar acceso genérico al bucket a Compute Engine. Esto ayuda a evitar que los usuarios omitan las políticas de seguridad a nivel de la tabla para leer archivos sin procesar directamente.
Administración unificada
La administración unificada te permite definir y aplicar políticas de seguridad y administración de datos de forma centralizada a través de la integración con Dataplex Universal Catalog.
Conceptos de confiabilidad
Las funciones de confiabilidad proporcionan disponibilidad del catálogo y resistencia de los datos.
Replicación entre regiones
La replicación entre regiones replica los metadatos en varias regiones para garantizar la disponibilidad del catálogo durante las interrupciones regionales.
Conmutación por error
La conmutación por error es el proceso de cambiar entre regiones principales y secundarias durante una interrupción regional para mantener las operaciones del catálogo.