El catálogo del entorno de ejecución de Lakehouse es un servicio sin servidores completamente administrado que proporciona una única fuente de información para tu data lakehouse. Permite que varios motores, incluidos Apache Spark, Apache Flink y BigQuery, compartan tablas y metadatos sin copiar archivos.
El catálogo del entorno de ejecución de Lakehouse admite la delegación de acceso al almacenamiento (venta de credenciales), lo que mejora la seguridad, ya que elimina la necesidad de acceder directamente al bucket de Cloud Storage. También se integra con Knowledge Catalog para ofrecer administración, linaje y calidad de los datos unificados.
Funciones clave
Como componente de Lakehouse para Apache Iceberg, el catálogo del entorno de ejecución de Lakehouse proporciona varias ventajas para la administración y el análisis de datos, como una arquitectura sin servidores, interoperabilidad del motor con APIs abiertas, una experiencia del usuario unificada y análisis, transmisión y IA de alto rendimiento cuando se usa con BigQuery. Para obtener más información sobre estos beneficios, consulta ¿Qué es Lakehouse?
Motores compatibles
El catálogo del entorno de ejecución de Lakehouse es compatible con varios motores de consultas, incluidos (sin limitaciones) Apache Spark, Apache Flink y Trino. En la siguiente tabla, se proporcionan vínculos a la documentación de cada motor:
| Motor | Documentación |
|---|---|
| Apache Spark | Guía de inicio rápido: Usa Spark |
| Apache Flink | Uso con Apache Flink |
| Trino | Uso con Trino |
Opciones de configuración de extremos
El catálogo del entorno de ejecución de Lakehouse se puede configurar de dos maneras: con el extremo del catálogo de Apache Iceberg REST o el extremo del catálogo personalizado de Apache Iceberg para BigQuery. La mejor opción depende de tu caso de uso, como se muestra en la siguiente tabla:
| Caso práctico | Recomendación |
|---|---|
| Nuevos usuarios del catálogo del entorno de ejecución de Lakehouse que desean que su motor de código abierto acceda a los datos en Cloud Storage y necesitan interoperabilidad con otros motores, incluidos BigQuery y AlloyDB para PostgreSQL. | Usa el extremo del catálogo de REST de Apache Iceberg. |
| Usuarios existentes del catálogo de tiempo de ejecución de Lakehouse que tienen tablas actuales creadas con el extremo del catálogo personalizado de Apache Iceberg para BigQuery | Sigue usando el catálogo personalizado de Apache Iceberg para el extremo de BigQuery, pero usa el catálogo REST de Apache Iceberg para los flujos de trabajo nuevos. Las tablas creadas con el extremo personalizado del catálogo de Apache Iceberg para BigQuery son visibles con el extremo del catálogo REST de Apache Iceberg a través de la federación del catálogo de BigQuery. |
Diferencias con BigLake Metastore (clásico)
El catálogo de tiempo de ejecución de Lakehouse es el almacén de metadatos recomendado enGoogle Cloud, mientras que BigLake Metastore (clásico) se considera una función heredada.
Las principales diferencias entre el catálogo del entorno de ejecución de Lakehouse y el metastore de BigLake (clásico) incluyen las siguientes:
- El catálogo del entorno de ejecución de Lakehouse admite una integración directa con motores de código abierto como Spark, lo que ayuda a reducir la redundancia cuando almacenas metadatos y ejecutas trabajos. Se puede acceder directamente a las tablas del catálogo del entorno de ejecución de Lakehouse desde varios motores de código abierto y BigQuery.
- El catálogo de entorno de ejecución de Lakehouse admite el extremo del catálogo de REST de Apache Iceberg, mientras que BigLake Metastore (clásico) no lo hace.
Limitaciones del catálogo de entorno de ejecución de Lakehouse
Se aplican las siguientes limitaciones a las tablas del catálogo del entorno de ejecución de Lakehouse:
Administración de tablas
- No puedes crear ni modificar tablas con el extremo del catálogo de REST de Apache Iceberg usando sentencias del lenguaje de definición de datos (DDL) o del lenguaje de manipulación de datos (DML) de BigQuery. Puedes modificar estas tablas con la API de BigQuery (con la herramienta de línea de comandos de bq o las bibliotecas cliente), pero si lo haces, corres el riesgo de realizar cambios que sean incompatibles con el motor externo.
- Las tablas del catálogo del entorno de ejecución de Lakehouse no admiten operaciones de cambio de nombre ni la
ALTER TABLE ... RENAME TOinstrucción de SQL de Spark. - Las tablas del catálogo de entorno de ejecución de Lakehouse no admiten el agrupamiento en clústeres.
- Las tablas del catálogo de tiempo de ejecución de Lakehouse no admiten nombres de columnas flexibles.
- El catálogo de entorno de ejecución de Lakehouse no admite vistas de Apache Iceberg.
Realiza consultas
- El rendimiento de las consultas de las tablas en el catálogo del entorno de ejecución de Lakehouse desde el motor de BigQuery puede ser lento en comparación con la consulta de datos en tablas estándar de BigQuery. En general, la velocidad de las consultas debe ser equivalente a la lectura de datos de Cloud Storage.
- Una ejecución de prueba de BigQuery de una consulta que usa una tabla en el catálogo del entorno de ejecución de Lakehouse puede informar un límite inferior de 0 bytes de datos, incluso si se muestran filas. Este resultado se produce porque la cantidad de datos que se procesan desde la tabla no se puede determinar hasta que se ejecuta la consulta completa. La ejecución de la consulta genera un costo por procesar estos datos.
- No puedes hacer referencia a una tabla en el catálogo del entorno de ejecución de Lakehouse en una consulta de tabla comodín.
API y metadatos
- No puedes usar el método
tabledata.listpara recuperar datos de las tablas en el catálogo del entorno de ejecución de Lakehouse. En cambio, puedes guardar los resultados de la consulta en una tabla de BigQuery y, luego, usar el métodotabledata.listen esa tabla. - No se admite la visualización de estadísticas de almacenamiento de tablas en el catálogo del entorno de ejecución de Lakehouse.
Cuotas y límites
- Las tablas del catálogo del entorno de ejecución de Lakehouse en BigQuery están sujetas a las mismas cuotas y límites que las tablas estándar.
¿Qué sigue?
- Comprende el extremo del catálogo de REST de Apache Iceberg.