Desde el 20 de abril de 2026, BigLake ahora se llama Lakehouse para Apache Iceberg. El metastore de BigLake ahora se llama catálogo de entorno de ejecución de Lakehouse. Los nombres de las APIs, las bibliotecas cliente, los comandos de la CLI y los nombres de IAM de Lakehouse permanecen sin cambios y siguen haciendo referencia a BigLake.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Acerca del catálogo del entorno de ejecución de Lakehouse

Lakehouse para Apache Iceberg es una plataforma de data lakehouse administrada en Google Cloud. En su núcleo, se encuentra el catálogo de entorno de ejecución de Lakehouse, un servicio de metastore completamente administrado y sin servidores que sirve como la única fuente de información para tus datos. Al centralizar estos metadatos, varios motores de procesamiento, incluidos Apache Spark, Apache Flink, Apache Hive y BigQuery, pueden compartir tablas sin problemas sin duplicar archivos.

Para conectar tus motores de consultas al metastore, configura un cliente con un extremo, como el catálogo de REST de Apache Iceberg. Esto actúa como una interfaz de administración dentro del catálogo de entorno de ejecución de Lakehouse para controlar los metadatos de las tablas, mientras que se basa en Cloud Storage para almacenar los metadatos y los archivos de datos subyacentes.

Funciones clave

Como componente clave de Lakehouse, el catálogo de entorno de ejecución de Lakehouse proporciona varias ventajas para la administración y el análisis de datos, incluida una arquitectura sin servidores, interoperabilidad del motor con APIs abiertas, una experiencia de usuario unificada y estadísticas, transmisión y IA de alto rendimiento cuando lo usas con BigQuery. Para obtener más información sobre estos beneficios, consulta ¿Qué es Lakehouse?

Cómo se integra Lakehouse con Google Cloud

Para comprender cómo Lakehouse administra tus datos, consulta cómo se integra la arquitectura de Lakehouse para Apache Iceberg con los Google Cloud servicios. Apache Iceberg no almacena datos en tablas monolíticas. En cambio, usa una arquitectura en capas de archivos de metadatos para organizar los archivos de datos en una estructura de tabla cohesiva con compatibilidad con transacciones ACID.

En el siguiente diagrama, se ilustra cómo los motores de procesamiento, como Managed Service para Apache Spark, usan el catálogo de entorno de ejecución de Lakehouse para administrar los metadatos de las tablas y leer y escribir archivos de datos de Parquet subyacentes directamente en Cloud Storage.

Componentes de una arquitectura de lakehouse, incluidos Managed Service para Apache Spark, Cloud Storage y el catálogo de REST de Lakehouse. — Diagrama de arquitectura de Lakehouse

Cuando usas Lakehouse para Apache Iceberg, la arquitectura técnica consta de tres capas distintas:

Capa de catálogo:
- Concepto principal de Iceberg: El catálogo almacena el estado actual de la tabla manteniendo un puntero al archivo de metadatos más reciente. Esta capa facilita el cumplimiento de ACID y el aislamiento de transacciones para garantizar que las escrituras simultáneas no interfieran entre sí.
- Implementación de Lakehouse: El catálogo de entorno de ejecución de Lakehouse actúa como el servicio de metastore regional de nivel superior. Dentro de este servicio, creas catálogos individuales para administrar tu jerarquía de datos. Los motores de consultas del cliente se conectan a estos catálogos mediante tipos de catálogos de extremos específicos, como el extremo del catálogo de REST de Apache Iceberg. El metastore administra las confirmaciones de transacciones, la venta de credenciales para la delegación de acceso al almacenamiento y la administración de punteros en todos tus catálogos.
Capa de metadatos:
- Concepto principal de Iceberg: Esta capa realiza un seguimiento de la estructura de la tabla, las instantáneas y las ubicaciones de los archivos mediante una jerarquía de tres tipos de archivos:
  - Archivos de metadatos: Almacenan el esquema de la tabla, la especificación de partición y un registro de punteros de instantáneas.
  - Listas de manifiestos: Representan una sola instantánea de la tabla agrupando una colección de archivos de manifiesto.
  - Archivos de manifiesto: Realizan un seguimiento de los datos a nivel de archivo individual, almacenan rutas de acceso a archivos, información de partición y estadísticas a nivel de columna, por ejemplo, recuentos de filas y valores mínimos y máximos, que se usan para la optimización de consultas y la eliminación de particiones.
- Implementación de Lakehouse: Dentro de un contenedor de catálogo, organizas tus datos en espacios de nombres lógicos (similares a los conjuntos de datos) y tablas. Para cada tabla, el catálogo de entorno de ejecución de Lakehouse genera y administra la jerarquía de metadatos de Iceberg subyacente, comenzando con un archivo metadata.json raíz que apunta a las listas de manifiestos y los archivos de manifiesto. El catálogo de entorno de ejecución de Lakehouse conserva estos archivos directamente en la ubicación de almacenamiento del almacén designada.
Capa de datos:
- Concepto principal de Iceberg: Este componente es el almacenamiento subyacente en el que residen los registros de datos sin procesar reales, por lo general, en formatos de archivo abiertos optimizados basados en columnas o filas, como Parquet, ORC o Avro.
- Implementación de Lakehouse: Cuando configuras ubicaciones de almacén de Cloud Storage (bl:// o gs://), los archivos de datos físicos a los que hacen referencia tus tablas se almacenan de forma segura en tus buckets. El catálogo de entorno de ejecución de Lakehouse administra el acceso a través de la delegación de acceso al almacenamiento (venta de credenciales), que vende tokens de acceso de corta duración directamente a los motores del cliente. Esto permite que los motores lean y escriban archivos de datos de forma segura sin requerir permisos de IAM amplios y directos en los buckets subyacentes.

Cómo Lakehouse implementa la API de catálogo de REST de Apache Iceberg

El catálogo de entorno de ejecución de Lakehouse implementa la API de catálogo de REST de Apache Iceberg de código abierto para administrar espacios de nombres y tablas. También proporciona una API de extensiones específicamente para la administración de catálogos.

Los motores de consultas del cliente interactúan con el metastore mediante estas APIs de catálogo de REST estándar. Para obtener detalles sobre los recursos y extremos de Google Cloud, consulta la referencia de la API de REST de Lakehouse.

Puedes crear, configurar y administrar estos recursos con la Google Cloud consola, gcloud CLI, la API de REST o Terraform. Si deseas obtener más información, consulta las siguientes páginas:

Configuración y compatibilidad del motor de consultas

Para analizar y administrar datos en el catálogo de entorno de ejecución de Lakehouse, puedes conectar diferentes motores de consultas de código abierto y empresariales. Según tu arquitectura existente y los requisitos de la carga de trabajo, puedes elegir entre varios motores compatibles y configurar el extremo de catálogo adecuado.

Motores compatibles

El catálogo de entorno de ejecución de Lakehouse es compatible con varios motores de consultas, incluidos (entre otros) Apache Spark, Apache Flink, Apache Hive y Trino. En la siguiente tabla, se proporcionan vínculos a la documentación de cada motor:

Motor	Documentación
Apache Spark	Úsalo con Apache Spark
Apache Hive	Úsalo con Spark y el catálogo de Hive
Apache Flink	Úsalo con Apache Flink
Trino	Úsalo con Trino

Tipos de catálogos y configuración de extremos

Cuando configuras motores de clientes para conectarte al metastore del catálogo de entorno de ejecución de Lakehouse, seleccionas un extremo de catálogo específico, como el extremo del catálogo de REST de Apache Iceberg o el extremo de Apache Hive. La mejor opción depende de tu caso de uso, como se muestra en la siguiente tabla:

Caso práctico	Recomendación
Nuevos usuarios del catálogo de entorno de ejecución de Lakehouse que desean que su motor de código abierto acceda a los datos en Cloud Storage y necesitan interoperabilidad con otros motores, incluidos BigQuery y AlloyDB para PostgreSQL.	Usa el extremo del catálogo de REST de Apache Iceberg.
Usuarios que ejecutan cargas de trabajo de Apache Hive o Spark que dependen de la interfaz de Hive Metastore y desean un servicio de metastore completamente administrado.	Usa el extremo del catálogo de Apache Hive.
Usuarios existentes del catálogo de entorno de ejecución de Lakehouse que tienen tablas actuales creadas con el catálogo de Apache Iceberg personalizado para el extremo de BigQuery.	Sigue usando el catálogo de Apache Iceberg personalizado para el extremo de BigQuery, pero usa el catálogo de REST de Apache Iceberg para los flujos de trabajo nuevos. Las tablas creadas con el catálogo de Apache Iceberg personalizado para el extremo de BigQuery son visibles con el extremo del catálogo de REST de Apache Iceberg a través de la federación de catálogos de BigQuery.

Limitaciones del catálogo de entorno de ejecución de Lakehouse

Las siguientes limitaciones generales se aplican a las tablas del catálogo de entorno de ejecución de Lakehouse cuando se consultan a través de BigQuery. Los extremos de catálogo individuales (como Apache Iceberg REST o Apache Hive) pueden tener limitaciones adicionales específicas del extremo.

Administración de tablas

Se admiten las tablas de Apache Iceberg V2 (GA) y V3 (versión preliminar). No se admiten las tablas de Iceberg V1. Antes de usar las tablas V1 existentes con el catálogo de entorno de ejecución de Lakehouse, debes actualizarlas a una versión compatible. Para obtener más información, consulta Actualiza las tablas de Iceberg V1 a V2.
No puedes crear ni modificar tablas con el extremo del catálogo de REST de Apache Iceberg con el lenguaje de definición de datos (DDL) o el lenguaje de manipulación de datos (DML) de BigQuery. Puedes modificar estas tablas con la API de BigQuery (con la herramienta de línea de comandos de bq o las bibliotecas cliente), pero hacerlo puede generar cambios que no sean compatibles con el motor externo.
Las tablas del catálogo de entorno de ejecución de Lakehouse no admiten operaciones de cambio de nombre ni la ALTER TABLE ... RENAME TO instrucción de Spark SQL.
Las tablas del catálogo de entorno de ejecución de Lakehouse no admiten el agrupamiento en clústeres.
Las tablas del catálogo de entorno de ejecución de Lakehouse no admiten nombres flexibles de columnas.
El catálogo de entorno de ejecución de Lakehouse no admite vistas de bases de datos ni de metastore.

nombres flexibles de columnas.
El catálogo de entorno de ejecución de Lakehouse no admite vistas de Apache Iceberg.

Realiza consultas

El rendimiento de las consultas de las tablas del catálogo de entorno de ejecución de Lakehouse desde el motor de BigQuery puede ser lento en comparación con la consulta de datos en tablas estándar de BigQuery. En general, la velocidad de las consultas debe ser equivalente a la lectura de datos de Cloud Storage.
Una ejecución de prueba de BigQuery de una consulta que usa una tabla en el catálogo de entorno de ejecución de Lakehouse puede informar un límite inferior de 0 bytes de datos, incluso si se muestran filas. Este resultado se produce porque la cantidad de datos que se procesan de la tabla no se puede determinar hasta que se ejecuta la consulta completa. La ejecución de la consulta genera un costo por el procesamiento de estos datos.
No puedes hacer referencia a una tabla en el catálogo de entorno de ejecución de Lakehouse en una tabla comodín consulta.

API y metadatos

No puedes usar el tabledata.list método para recuperar datos de tablas en el catálogo de entorno de ejecución de Lakehouse. En cambio, puedes guardar los resultados de la consulta en una tabla de BigQuery y, luego, usar el método tabledata.list en esa tabla.
No se admite la visualización de estadísticas de almacenamiento para tablas en el catálogo de entorno de ejecución de Lakehouse.

Cuotas y límites

Las tablas del catálogo de entorno de ejecución de Lakehouse en BigQuery están sujetas a las mismas cuotas y límites que las tablas estándar.

Diferencias con BigLake Metastore (clásico)

Las diferencias principales entre el catálogo de entorno de ejecución de Lakehouse y BigLake Metastore (clásico) incluyen lo siguiente:

El catálogo de entorno de ejecución de Lakehouse admite una integración directa con motores de código abierto como Spark, lo que ayuda a reducir la redundancia cuando almacenas metadatos y ejecutas trabajos. Se puede acceder directamente a las tablas del catálogo de entorno de ejecución de Lakehouse desde varios motores de código abierto y BigQuery.
El catálogo de entorno de ejecución de Lakehouse admite el extremo del catálogo de REST de Apache Iceberg, mientras que BigLake Metastore (clásico) no lo hace.

¿Qué sigue?

Comprende el extremo del catálogo de REST de Apache Iceberg.