El metastore de BigLake es una solución unificada, administrada, sin servidores y escalable que conecta los datos de lakehouses almacenados en Google Cloud con múltiples entornos de ejecución, incluidos los motores de código abierto (como Apache Spark) y BigQuery. Proporciona la base que necesitas para crear un lakehouse abierto, administrado y de alto rendimiento con administración de datos automatizada y gestión integrada con formatos de tabla de código abierto clave, como Apache Iceberg.
BigLake Metastore proporciona una sola fuente de información para los metadatos de múltiples fuentes, lo que elimina la necesidad de copiar y sincronizar datos y metadatos entre diferentes sistemas y repositorios analíticos con herramientas personalizadas. También admite modelos de delegación de acceso al almacenamiento, como la venta de credenciales, lo que elimina la necesidad de que los usuarios del catálogo tengan acceso directo a los buckets de Cloud Storage.
Para los flujos de trabajo que usan tablas de BigLake Iceberg en BigQuery, BigLake Metastore también es compatible con Dataplex Universal Catalog, que proporciona controles de acceso unificados y detallados en todos los motores compatibles, y permite una administración integral que incluye capacidades integrales de linaje, calidad de los datos y detección.
BigLake Metastore se puede configurar de dos maneras: con el catálogo REST de Iceberg o el catálogo de Iceberg personalizado para BigQuery. La mejor opción depende de tu caso de uso, como se muestra en la siguiente tabla:
| Caso práctico | Recomendación |
|---|---|
| Nuevos usuarios del metastore de BigLake que desean que su motor de código abierto acceda a datos en Cloud Storage y necesitan interoperabilidad con otros motores, incluidos BigQuery y AlloyDB. | Usa el catálogo REST de Iceberg. |
| Usuarios existentes de BigLake Metastore que tienen tablas actuales con el catálogo de Iceberg personalizado para BigQuery. | Sigue usando el catálogo de Iceberg personalizado para BigQuery, pero usa el catálogo REST de Iceberg para los flujos de trabajo nuevos. Las tablas creadas con el catálogo personalizado de Iceberg para BigQuery se pueden ver con el catálogo de REST de Iceberg a través de la federación. |
Funciones clave
BigLake Metastore ofrece varias ventajas importantes para la administración y el análisis de datos:
- Arquitectura sin servidores. El metastore de BigLake proporciona una arquitectura sin servidores, lo que elimina la necesidad de administrar servidores o clústeres. Esto ayuda a reducir la sobrecarga operativa, simplifica la implementación y permite el ajuste de escala automático según la demanda.
- Interoperabilidad del motor con APIs abiertas. El metastore de BigLake admite la interoperabilidad con motores de código abierto y de terceros. El metastore de BigLake te proporciona acceso directo a las tablas en todos los motores de código abierto (como Spark y Flink) y BigQuery, lo que te permite consultar tablas de formato abierto sin pasos de conexión adicionales. Esta configuración ayuda a optimizar tu flujo de trabajo de análisis y reduce la necesidad de procesos complejos de ETL o movimiento de datos.
- Experiencia del usuario unificada. BigLake Metastore proporciona un flujo de trabajo unificado en los motores de código abierto y BigQuery. Esta experiencia unificada significa que puedes, por ejemplo, configurar entornos de Spark que se autoalojan, que aloja Dataproc a través del catálogo de REST de Iceberg o en un notebook de BigQuery.
- Análisis, transmisión y IA de alto rendimiento con BigQuery. El metastore de BigLake te permite almacenar datos de Iceberg en tus propios buckets de Cloud Storage y aprovechar las capacidades de administración de metadatos en tiempo real y altamente escalables de BigQuery. Esta arquitectura te proporciona la apertura y la propiedad de los datos de Cloud Storage, así como las capacidades de transmisión, análisis y IA completamente administradas de BigQuery.
Diferencias con BigLake Metastore (clásico)
BigLake Metastore es el almacén de metadatos recomendado en Google Cloud, mientras que BigLake Metastore (clásico) se considera una función heredada.
Las principales diferencias entre BigLake Metastore y BigLake Metastore (clásico) incluyen las siguientes:
- El metastore de BigLake admite una integración directa con motores de código abierto, como Spark, lo que ayuda a reducir la redundancia cuando almacenas metadatos y ejecutas trabajos. Se puede acceder directamente a las tablas del metastore de BigLake desde varios motores de código abierto y BigQuery.
- BigLake Metastore admite el catálogo REST de Iceberg, mientras que BigLake Metastore (clásico) no lo hace.
Limitaciones de BigLake Metastore
Se aplican las siguientes limitaciones a las tablas en BigLake Metastore:
- No puedes crear ni modificar tablas de BigLake Iceberg con instrucciones del lenguaje de definición de datos (DDL) o del lenguaje de manipulación de datos (DML) de BigQuery. Puedes modificar las tablas de BigLake Iceberg con la API de BigQuery (con la herramienta de línea de comandos de bq o las bibliotecas cliente), pero, si lo haces, corres el riesgo de realizar cambios que sean incompatibles con el motor externo.
- Las tablas de BigLake Metastore no admiten operaciones de cambio de nombre ni la instrucción
ALTER TABLE ... RENAME TOde Spark SQL. - Las tablas de metastore de BigLake en BigQuery están sujetas a las mismas cuotas y límites que las tablas estándar.
- El rendimiento de las consultas de las tablas del metastore de BigLake desde el motor de BigQuery puede ser lento en comparación con la consulta de datos en las tablas estándar de BigQuery. En general, la velocidad de las consultas debe ser equivalente a la lectura de datos de Cloud Storage.
- Una ejecución de prueba de BigQuery de una consulta que usa una tabla de metastore de BigLake puede informar un límite inferior de 0 bytes de datos, incluso si se muestran filas. Este resultado se produce porque la cantidad de datos que se procesan desde la tabla no se puede determinar hasta que se ejecuta la consulta completa. La ejecución de la consulta genera un costo por procesar estos datos.
- No puedes hacer referencia a una tabla de BigLake Metastore en una consulta de tabla comodín.
- No puedes usar el método
tabledata.listpara recuperar datos de las tablas de BigLake Metastore. En cambio, puedes guardar los resultados de la consulta en una tabla de BigQuery y, luego, usar el métodotabledata.listen esa tabla. - Las tablas de BigLake Metastore no admiten el agrupamiento en clústeres.
- Las tablas de metastore de BigLake no admiten nombres de columnas flexibles.
- No se admite la visualización de estadísticas de almacenamiento de tablas para las tablas de BigLake Metastore.
- BigLake Metastore no admite vistas de Iceberg.
¿Qué sigue?
- Explora el catálogo REST de Iceberg.
- Explora el catálogo personalizado de Iceberg para BigQuery.