En este documento, se definen los términos y conceptos clave de BigLake.
Conceptos básicos
Los siguientes conceptos forman la base de la arquitectura de BigLake.
Data Lakehouse
Un data lakehouse es una arquitectura de datos que combina la rentabilidad y la flexibilidad de un data lake con las estructuras de administración y rendimiento de datos de un almacén de datos. BigLake habilita una arquitectura de lakehouse, ya que te permite conservar los datos en formatos abiertos en Cloud Storage mientras usas las funciones de BigQuery, como la seguridad detallada y las consultas de alto rendimiento. Para obtener más información, consulta Cómo funciona BigLake.
Interoperabilidad abierta
La interoperabilidad abierta es la capacidad de varios sistemas analíticos y transaccionales, como BigQuery, Spark y Flink, para operar en una sola copia de datos en formatos abiertos, como Apache Iceberg. Esto elimina la necesidad de duplicar datos y garantiza una vista coherente de los datos en diferentes herramientas. Para obtener más información, consulta Cómo funciona BigLake.
Metastore de BigLake
BigLake Metastore es un servicio de metadatos centralizado y sin servidores que actúa como la única fuente de información para tu lakehouse. Permite que varios motores, como Spark, Flink y BigQuery, descubran y consulten las mismas tablas de forma simultánea. Para obtener más información, consulta Acerca de BigLake Metastore.
Tipos de catálogos
El metastore de BigLake ofrece dos tipos diferentes de catálogos para administrar tus metadatos. La elección del catálogo es una decisión fundamental que afecta la forma en que interactúas con tus datos.
Catálogo de REST de Iceberg
Este es un catálogo basado en la especificación del catálogo REST de Apache Iceberg. Proporciona interoperabilidad entre los motores de código abierto y BigQuery, y admite funciones como la venta de credenciales y la recuperación ante desastres. Para obtener más información, consulta Conceptos del catálogo REST de Apache Iceberg.
Catálogo de Iceberg personalizado para BigQuery
Esta es una integración que usa BigQuery directamente como metastore de respaldo. Para obtener más información, consulta Federación de catálogos con BigQuery.
Formatos de tabla
BigLake admite varios formatos de tabla, según el motor que se use para administrar los datos.
Tablas de BigLake Iceberg
Son tablas de Iceberg creadas a partir de motores de código abierto y almacenadas en Cloud Storage. El metastore de BigLake funciona como el catálogo central. El motor de código abierto que creó la tabla es el único que puede escribir en ella. Para obtener más información, consulta Introducción a las tablas de BigLake Iceberg para Apache Iceberg.
Tablas de BigLake Iceberg en BigQuery
Son tablas de Iceberg que creas desde BigQuery y almacenas en Cloud Storage. BigQuery controla todo el diseño y la optimización de los datos. Si bien varios motores pueden leer estas tablas, BigQuery es el único que puede escribir en ellas directamente. Para obtener más información, consulta Administra tablas de BigLake Iceberg en BigQuery.
Tablas estándar de BigQuery
BigQuery administra estas tablas y almacena los datos en el almacenamiento de BigQuery. Puedes conectar estas tablas a BigLake Metastore. Para obtener más información, consulta Descripción general de las tablas de BigLake.
Tablas externas
Las tablas externas residen fuera de BigLake Metastore. Los datos y los metadatos se administran por sí mismos en un catálogo de terceros. BigQuery solo puede leer datos de estas tablas. Para obtener más información, consulta Descripción general de las tablas de BigLake.
Funciones de tabla
BigLake proporciona varias funciones que simplifican la administración de datos y mejoran el rendimiento de las consultas para las tablas de Iceberg.
Evolución de la tabla
BigLake admite la evolución de tablas de Iceberg, lo que te permite cambiar el esquema o la especificación de partición de una tabla con el tiempo sin reescribir los datos de la tabla ni volver a crearla. Para obtener más información, consulta Funciones adicionales del metastore de BigLake.
Viaje en el tiempo
El viaje en el tiempo te permite consultar los datos de una tabla tal como existían en un momento específico o en un ID de instantánea. Esto es útil para auditar, reproducir experimentos o restablecer datos después de una eliminación accidental. Para obtener más información, consulta Funciones adicionales del metastore de BigLake.
Almacenamiento de metadatos en caché
El almacenamiento en caché de metadatos es una función que acelera el rendimiento de las consultas en las tablas externas de BigLake. Almacena una copia de los metadatos de la tabla en el almacenamiento de BigQuery, lo que reduce la necesidad de leer archivos de metadatos de Cloud Storage durante la ejecución de consultas. Para obtener más información, consulta Descripción general de las tablas de BigLake.
Mantenimiento automático de tablas
El mantenimiento automático de tablas simplifica la administración del lakehouse, ya que automatiza tareas como la compactación y la recolección de elementos no utilizados para las tablas administradas. Esto garantiza un rendimiento óptimo de las consultas y eficiencia de almacenamiento sin intervención manual. Para obtener más información, consulta Funciones adicionales del metastore de BigLake.
Conceptos de interoperabilidad
La interoperabilidad proporciona acceso a los datos en Google Cloud y en sistemas de código abierto.
Federación de catálogos
La federación de catálogos es una función del catálogo de REST de Iceberg que permite administrar y consultar tablas visibles para BigQuery, incluidas las tablas creadas con el catálogo de Iceberg personalizado. Para obtener más información, consulta Federación de catálogos con BigQuery.
Estructura de nomenclatura de P.C.N.T
La estructura de nombres de P.C.N.T. es la convención de cuatro partes que se usa para identificar y consultar de forma única las tablas en el metastore de BigLake desde BigQuery. Significa Project.Catalog.Namespace.Table:
- Proyecto: Es el ID del proyecto de Google Cloud .
- Catálogo: Es el nombre del catálogo de BigLake Metastore.
- Espacio de nombres: Es la agrupación lógica de tablas (similar a un conjunto de datos).
- Tabla: Es el nombre de la tabla de datos.
Para obtener más información, consulta Cómo consultar catálogos.
Conceptos de seguridad
Las funciones de seguridad proporcionan mecanismos para la administración del acceso y la protección de datos.
Conexiones
Una conexión es un recurso de BigQuery que almacena credenciales para acceder a datos externos. En BigLake, las conexiones delegan el acceso a Cloud Storage permitiendo que la cuenta de servicio de la conexión acceda al bucket de almacenamiento en tu nombre. Para obtener más información, consulta Autenticación con BigQuery.
Venta de credenciales
La venta de credenciales es un mecanismo de seguridad que ayuda a reforzar el control de acceso cuando se usa el catálogo de REST de Iceberg. Cuando está habilitado, BigLake genera credenciales de corta duración y con alcance reducido diseñadas para otorgar acceso solo a las rutas de archivos específicas requeridas para una consulta, en lugar de pasar acceso genérico al bucket a Compute Engine. Esto ayuda a evitar que los usuarios omitan las políticas de seguridad a nivel de la tabla para leer archivos sin procesar directamente. Para obtener más información, consulta Acerca de la venta de credenciales.
Administración unificada
La administración unificada te permite definir y aplicar políticas de seguridad y administración de datos de forma centralizada a través de la integración con Knowledge Catalog. Para obtener más información, consulta IAM y control de acceso.
Conceptos de confiabilidad
Las funciones de confiabilidad proporcionan disponibilidad del catálogo y resistencia de los datos.
Replicación entre regiones
La replicación entre regiones replica los metadatos en varias regiones para garantizar la disponibilidad del catálogo durante las interrupciones regionales. Para obtener más información, consulta Acerca de la recuperación ante desastres administrada.
Conmutación por error
La conmutación por error es el proceso de cambiar entre regiones principales y secundarias durante una interrupción regional para mantener las operaciones del catálogo. Para obtener más información, consulta Acerca de la recuperación ante desastres administrada.