BigLake es un motor de almacenamiento que une Google Cloud y servicios de código abierto para crear una interfaz unificada para estadísticas avanzadas y la IA. Proporciona la base que necesitas para crear un lakehouse abierto, administrado y de alto rendimiento con administración de datos automatizada y administración integrada con Apache Iceberg.
BigLake permite la interoperabilidad en todos los motores compatibles con Iceberg, como Apache Spark o BigQuery, lo que te brinda una vista coherente de tus datos. También extiende las capacidades de administración de Cloud Storage, que incluyen funciones como la organización automática en niveles de clases, la encriptación y las claves de encriptación administradas por el cliente en tus buckets de almacenamiento. Además, la integración integrada con Dataplex Universal Catalog garantiza que las políticas de administración se definan de forma centralizada y se apliquen de manera coherente en varios motores, al tiempo que permite la búsqueda semántica, el linaje de datos, la creación de perfiles y las verificaciones de calidad.
BigLake también ofrece la opción de una experiencia de Iceberg completamente administrada cuando se integra con BigQuery. Aprovechando las capacidades de administración de metadatos en tiempo real y altamente escalables de BigQuery, obtienes lo mejor de ambos mundos: apertura y propiedad de los datos junto con análisis, transmisión y IA de alto rendimiento.
Arquitectura
Un data lakehouse compilado con BigLake consta de los siguientes componentes:
- Capacidades de almacenamiento. Cloud Storage con Apache Iceberg como el formato de tabla abierta recomendado
- Un metastore BigLake Metastore es un metastore unificado, administrado, sin servidores y escalable que proporciona una sola fuente de información para administrar metadatos en varios motores.
- Un motor de consultas. BigQuery, Apache Spark, Apache Flink, Trino y otros motores de código abierto son compatibles con BigLake.
- Una herramienta para la escritura y el análisis de datos. BigQuery, Spark, Flink, Trino y otras herramientas de código abierto se integran con BigLake para proporcionar una variedad de rutas de escritura y análisis.
BigLake incluye todos estos componentes en una sola experiencia con administración uniforme. Para obtener más información sobre la arquitectura y las innovaciones de BigLake, consulta BigLake evolucionó.
BigLake Metastore
BigLake Metastore es un metastore completamente administrado y sin servidores para tu lakehouse en Google Cloud. Proporciona una sola fuente de información para los metadatos de múltiples fuentes y se puede acceder a ella desde BigQuery y varios motores de procesamiento de datos abiertos, lo que elimina la necesidad de copiar y sincronizar metadatos entre diferentes repositorios con herramientas personalizadas.
BigLake Metastore es compatible con Dataplex Universal Catalog, que proporciona controles de acceso unificados y detallados en todos los motores compatibles, y permite una administración integral que incluye capacidades integrales de linaje, calidad de los datos y detección.
Formatos de tabla
Cuando compilas un lakehouse en BigLake, tienes las siguientes opciones para el formato de tus tablas:
- Las tablas de BigLake Iceberg en BigQuery son tablas de Iceberg que creas desde BigQuery y almacenas en Cloud Storage. Al igual que todas las tablas que usan el metastore de BigLake, pueden leerse con motores de código abierto y BigQuery. Sin embargo, BigQuery es el único motor que puede escribir directamente en ellos. Esta opción es la mejor si deseas que BigQuery administre por completo tu flujo de trabajo de extracción, transformación y carga (ETL).
- Las tablas de BigLake Iceberg son tablas de Iceberg que creas a partir de motores de código abierto y almacenas en Cloud Storage. Al igual que todas las tablas que usan el metastore de BigLake, los motores de código abierto y BigQuery pueden leerlas. Sin embargo, el motor de código abierto que creó la tabla es el único que puede escribir en ella. Esta opción es la mejor si deseas que el motor de código abierto administre tu flujo de trabajo de ETL.
- Las tablas estándar de BigQuery son completamente administradas por BigQuery y tienen las funciones de administración y análisis de datos más avanzadas. Aún puedes conectar estas tablas a BigLake Metastore. Esta opción es la mejor para las tablas que no son de Iceberg.
- Las tablas externas son tablas que se encuentran fuera del metastore de BigLake. Los datos y los metadatos de estas tablas se administran por completo, por lo que dependes totalmente de las capacidades de los formatos de tablas abiertas (como Iceberg, Apache Hudi o Delta Lake). BigQuery solo puede leer desde estas tablas. Elige esta opción para los datos y los metadatos que deseas administrar por tu cuenta en un catálogo de terceros.
Usa el siguiente gráfico para comparar las opciones de formato de la tabla:
| Tablas externas | Tablas de BigLake Iceberg | Tablas de BigLake Iceberg en BigQuery | Tablas estándar de BigQuery | |
|---|---|---|---|---|
| Metastore | Metastore externo o autoalojado | BigLake Metastore | BigLake Metastore | BigQuery |
| Almacenamiento | Cloud Storage, Amazon S3 y Azure | Cloud Storage | Cloud Storage | BigQuery |
| Optimización del almacenamiento | Administrado por el cliente o por terceros | Administrado por el cliente o por terceros | Administrado por Google | Administrado por Google |
| Lectura y escritura |
Motores de código abierto (lectura y escritura) BigQuery (solo lectura) |
Motores de código abierto (lectura y escritura) BigQuery (solo lectura) |
Motores de código abierto (solo lectura con bibliotecas de Iceberg, interoperabilidad de lectura y escritura con la API de BigQuery Storage)
BigQuery (lectura y escritura) |
Motores de código abierto (interoperabilidad de lectura y escritura con la API de BigQuery Storage) BigQuery (lectura y escritura) |
| Casos de uso | Tablas de etapa intermedia para cargas de BigQuery, tablas heredadas de solo consulta | Open lakehouse | Lakehouse abierto con almacenamiento de alto rendimiento y nivel empresarial para análisis, transmisión y IA avanzados | Almacenamiento de nivel empresarial para análisis avanzados, transmisión y la IA |
¿Qué sigue?
- Obtén más información sobre BigLake Metastore.