El catálogo de entorno de ejecución de Lakehouse es un servicio completamente administrado y sin servidores que proporciona una única fuente de información para tu data lakehouse. Permite que varios motores, incluidos Apache Spark, Apache Flink y BigQuery, compartan tablas y metadatos sin copiar archivos.
El catálogo de entorno de ejecución de Lakehouse admite la delegación de acceso al almacenamiento (venta de credenciales), lo que mejora la seguridad, ya que elimina la necesidad de acceso directo al bucket de Cloud Storage. También se integra con Knowledge Catalog para la administración unificada , el linaje y la calidad de los datos.
Funciones clave
Como componente de Google Cloud Lakehouse, el catálogo de entorno de ejecución de Lakehouse proporciona varias ventajas para la administración y el análisis de datos, incluida una arquitectura sin servidores, interoperabilidad del motor con APIs abiertas, una experiencia de usuario unificada, y análisis, transmisión y IA de alto rendimiento cuando se usa con BigQuery. Para obtener más información sobre estos beneficios, consulta What is Google Cloud Lakehouse?
Motores compatibles
El catálogo de entorno de ejecución de Lakehouse es compatible con varios motores de consultas, incluidos (entre otros) Apache Spark, Apache Flink y Trino. En la siguiente tabla, se proporcionan vínculos a la documentación de cada motor:
| Motor | Documentación |
|---|---|
| Apache Spark | Guía de inicio rápido: Cómo usar con Spark |
| Apache Flink | Cómo usar con Apache Flink |
| Trino | Cómo usar con Trino |
Opciones de configuración
El catálogo de entorno de ejecución de Lakehouse se puede configurar de dos maneras: con el extremo del catálogo REST de Apache Iceberg o el *catálogo de Apache Iceberg personalizado para el extremo de BigQuery. La mejor opción depende de tu caso de uso, como se muestra en la siguiente tabla:
| Caso práctico | Recomendación |
|---|---|
| Nuevos usuarios del catálogo de entorno de ejecución de Lakehouse que desean que su motor de código abierto acceda a datos en Cloud Storage y necesitan interoperabilidad con otros motores, incluidos BigQuery y AlloyDB para PostgreSQL. | Usa el extremo del catálogo REST de Apache Iceberg. |
| Usuarios existentes del catálogo de entorno de ejecución de Lakehouse que tienen tablas actuales con el catálogo de Apache Iceberg personalizado para BigQuery. | Continúa usando el catálogo de Apache Iceberg personalizado para el extremo de BigQuery, pero usa el catálogo REST de Apache Iceberg para los flujos de trabajo nuevos. Las tablas creadas con el catálogo de Apache Iceberg personalizado para el extremo de BigQuery son visibles con el catálogo REST de Apache Iceberg a través de la federación de catálogos de BigQuery. |
Diferencias con BigLake Metastore (clásico)
El catálogo de entorno de ejecución de Lakehouse es el metastore recomendado en Google Cloud, mientras que BigLake Metastore (clásico) se considera una función heredada.
Las diferencias principales entre el catálogo de entorno de ejecución de Lakehouse y BigLake Metastore (clásico) incluyen lo siguiente:
- El catálogo de entorno de ejecución de Lakehouse admite una integración directa con motores de código abierto como Spark, lo que ayuda a reducir la redundancia cuando almacenas metadatos y ejecutas trabajos. Se puede acceder directamente a las tablas del catálogo de entorno de ejecución de Lakehouse desde varios motores de código abierto y BigQuery.
- El catálogo de entorno de ejecución de Lakehouse admite el extremo del catálogo REST de Apache Iceberg, mientras que BigLake Metastore (clásico) no lo hace.
Limitaciones del catálogo de entorno de ejecución de Lakehouse
Las siguientes limitaciones se aplican a las tablas del catálogo de entorno de ejecución de Lakehouse:
Administración de tablas
- No puedes crear ni modificar tablas del catálogo REST de Lakehouse Iceberg con el lenguaje de definición de datos (DDL) o el lenguaje de manipulación de datos (DML) de BigQuery. Puedes modificar las tablas del catálogo REST de Lakehouse Iceberg con la API de BigQuery (con la herramienta de línea de comandos de bq o las bibliotecas cliente), pero, si lo haces, corres el riesgo de realizar cambios que no sean compatibles con el motor externo.
- Las tablas del catálogo de entorno de ejecución de Lakehouse no admiten operaciones
de cambio de nombre ni la sentencia
ALTER TABLE ... RENAME TOde Spark SQL. - Las tablas del catálogo de entorno de ejecución de Lakehouse no admiten el agrupamiento en clústeres.
- Las tablas del catálogo de entorno de ejecución de Lakehouse no admiten nombres de columnas flexibles.
- El catálogo de entorno de ejecución de Lakehouse no admite vistas de Apache Iceberg.
Realiza consultas
- El rendimiento de las consultas de las tablas del catálogo de entorno de ejecución de Lakehouse desde el motor de BigQuery puede ser lento en comparación con la consulta de datos en tablas estándar de BigQuery. En general, la velocidad de la consulta debe ser equivalente a la lectura de datos de Cloud Storage.
- Una ejecución de prueba de BigQuery de una consulta que usa una tabla del catálogo de entorno de ejecución de Lakehouse puede informar un límite inferior de 0 bytes de datos, incluso si se muestran filas. Este resultado se produce porque la cantidad de datos que se procesan de la tabla no se puede determinar hasta que se ejecuta la consulta completa. La ejecución de la consulta genera un costo por procesar estos datos.
- No puedes hacer referencia a una tabla del catálogo de entorno de ejecución de Lakehouse en una consulta de tabla comodín table.
API y metadatos
- No puedes usar el
tabledata.listmétodo para recuperar datos de las tablas del catálogo de entorno de ejecución de Lakehouse. En su lugar, puedes guardar los resultados de la consulta en una tabla de BigQuery y, luego, usar el métodotabledata.listen esa tabla. - No se admite la visualización de estadísticas de almacenamiento para las tablas del catálogo de entorno de ejecución de Lakehouse.
Cuotas y límites
- Las tablas del catálogo de entorno de ejecución de Lakehouse en BigQuery están sujetas a los mismos límites y cuotas que las tablas estándar.
¿Qué sigue?
- Comprende el extremo del catálogo REST de Apache Iceberg.
- Comprende el catálogo de Apache Iceberg personalizado para el extremo de BigQuery.