En este documento, se definen los términos y conceptos clave de Google Cloud Lakehouse.
Esta página no es una lista exhaustiva de funciones, sino una referencia general de los términos y conceptos que se usan en toda la documentación de Google Cloud Lakehouse.
Conceptos básicos
Los siguientes conceptos forman la base de la arquitectura de Google Cloud Lakehouse.
Data Google Cloud Lakehouse
Un data lakehouse combina los ahorros de costos y la flexibilidad de un data lake con la administración de datos y el rendimiento de un almacén de datos. Te permite almacenar datos en formatos abiertos en Cloud Storage y usar funciones de BigQuery, como controles de seguridad precisos y consultas rápidas.
Interoperabilidad abierta
La interoperabilidad abierta es la capacidad de que varios sistemas analíticos y transaccionales, como BigQuery, Apache Spark y Apache Flink, operen en una sola copia de datos en formatos abiertos, como Apache Iceberg. Esto elimina la necesidad de duplicar datos y garantiza una vista coherente de los datos en diferentes herramientas.
Catálogo de entorno de ejecución de Lakehouse
El catálogo de entorno de ejecución de Lakehouse es un servicio de metadatos centralizado y sin servidores que actúa como la única fuente de información para Google Cloud Lakehouse. Permite que varios motores, como Apache Spark, Apache Flink y BigQuery, descubran y consulten las mismas tablas de forma simultánea.
Tipos de catálogos
El catálogo de entorno de ejecución de Lakehouse ofrece diferentes tipos de catálogos para administrar tus metadatos.
Extremo de catálogo de REST de Apache Iceberg
Este es un catálogo basado en el extremo de catálogo de REST de Apache Iceberg. Proporciona interoperabilidad entre los motores de código abierto y BigQuery, y admite funciones como la venta de credenciales y la recuperación ante desastres.
Catálogo personalizado de Apache Iceberg para BigQuery
Esta es una integración que usa el catálogo de BigQuery directamente como el servicio de metadatos de respaldo para las tablas administradas de Apache Iceberg.
Formatos de tabla
Google Cloud Lakehouse admite varios formatos de tabla, según el motor que se use para administrar los datos.
Tablas de catálogo de REST de Lakehouse para Iceberg
Estas son tablas de Apache Iceberg creadas a partir de motores de código abierto y almacenadas en Cloud Storage. El catálogo de entorno de ejecución de Lakehouse sirve como catálogo central. El motor de código abierto que creó la tabla es el único que puede escribir en ella.
Tablas de BigQuery
Estas tablas se administran con BigQuery.
Tablas de Apache Iceberg
Estas son tablas de Apache Iceberg que creas desde BigQuery y almacenas en Cloud Storage. BigQuery controla todo el diseño y la optimización de los datos. Si bien varios motores pueden leer estas tablas, BigQuery es el único que puede escribir directamente en ellas.
Tablas nativas
BigQuery administra estas tablas y almacena datos en el almacenamiento de BigQuery. Puedes conectar estas tablas al catálogo de entorno de ejecución de Lakehouse.
Tablas externas
Las tablas externas residen fuera del catálogo de entorno de ejecución de Lakehouse. Los datos y los metadatos se administran por sí mismos en un catálogo de terceros (como Cloud Storage, S3 o Azure Blob Storage). BigQuery solo puede leer de estas tablas.
Funciones de tabla
Evolución de la tabla
Google Cloud Lakehouse admite la evolución de la tabla de Apache Iceberg, lo que te permite cambiar el esquema o la especificación de partición de una tabla con el tiempo sin reescribir los datos de la tabla ni volver a crearla.
Viaje en el tiempo
El viaje en el tiempo te permite consultar los datos de una tabla tal como existían en un momento específico o en un ID de instantánea. Esto es útil para auditar, reproducir experimentos o restablecer datos después de una eliminación accidental.
Almacenamiento de metadatos en caché
El almacenamiento de metadatos en caché es una función que acelera el rendimiento de las consultas para las tablas externas. Almacena una copia de los metadatos de la tabla en el almacenamiento de BigQuery, lo que reduce la necesidad de leer archivos de metadatos de Cloud Storage durante la ejecución de la consulta.
Administración de tablas de Google Cloud Lakehouse
La administración de tablas de Google Cloud Lakehouse simplifica el mantenimiento de lakehouse mediante la automatización de tareas como la compactación y la recolección de elementos no utilizados para las tablas administradas. Esto garantiza un rendimiento óptimo de las consultas y eficiencia de almacenamiento.
Conceptos de interoperabilidad
Federación de catálogos de entorno de ejecución de Lakehouse
La federación de catálogos es una función que permite que el catálogo de entorno de ejecución de Lakehouse administre y consulte tablas de catálogos externos, como AWS Glue o Unity Catalog, que son visibles para BigQuery.
Estructura de nombres P.C.N.T
La estructura de nombres P.C.N.T es la convención de cuatro partes que se usa para identificar y consultar de forma única las tablas en el catálogo de entorno de ejecución de Lakehouse desde BigQuery. Significa Project.Catalog.Namespace.Table:
- Project: Es el ID del Google Cloud proyecto.
- Catálogo: Es el nombre del catálogo de entorno de ejecución de Lakehouse.
- Namespace: Es la agrupación lógica de tablas (similar a un conjunto de datos).
- Tabla: Es el nombre de la tabla de datos.
Conceptos de seguridad
Conexiones
Una conexión es un recurso de BigQuery que almacena credenciales para acceder a datos externos. En Google Cloud Lakehouse, las conexiones delegan el acceso a Cloud Storage, ya que permiten que la cuenta de servicio de la conexión acceda al bucket de almacenamiento en tu nombre.
Venta de credenciales
La venta de credenciales es un mecanismo de seguridad que ayuda a reforzar el control de acceso cuando se usa el catálogo de entorno de ejecución de Lakehouse. Cuando está habilitado, el servicio genera credenciales de corta duración y de alcance reducido diseñadas para otorgar acceso solo a las rutas de acceso de archivos específicas que se requieren para una consulta.
Administración unificada
La administración unificada te permite definir y aplicar políticas de seguridad y administración de datos de forma centralizada a través de la integración con Knowledge Catalog.
Conceptos de confiabilidad
Replicación entre regiones
La replicación entre regiones replica metadatos en varias regiones para garantizar la disponibilidad del catálogo durante las interrupciones regionales.
Conmutación por error
La conmutación por error es el proceso de cambiar entre regiones principales y secundarias durante una interrupción regional para mantener las operaciones del catálogo.