Google Cloud Lakehouse es un motor de almacenamiento de alto rendimiento diseñado para crear data lakehouses abiertos. Al integrar el formato de tabla abierta de Apache Iceberg con el almacenamiento completamente administrado y de nivel empresarial enGoogle Cloud, se proporciona una interfaz unificada para la IA y el análisis avanzados.
Al separar el almacenamiento del procesamiento, el data lakehouse de Google Cloud garantiza una interoperabilidad perfecta en los sistemas analíticos y transaccionales. Esta arquitectura permite que varios motores, incluidos Apache Spark, Apache Flink, Apache Hive, Trino y BigQuery, accedan a una sola fuente de verdad, lo que elimina la duplicación de datos y garantiza estadísticas coherentes.
Ventajas clave
- Arquitectura sin servidores: Google Cloud Lakehouse elimina la necesidad de administrar servidores o clústeres, lo que reduce la sobrecarga operativa y se ajusta automáticamente según la demanda.
- Administración y administración de datos unificadas: La integración con Knowledge Catalog garantiza la definición y la aplicación centralizadas de políticas de administración en varios motores, y permite la búsqueda semántica, el linaje de datos y las verificaciones de calidad.
- Extensiones de almacenamiento: Google Cloud Lakehouse extiende las capacidades de administración de Cloud Storage para incluir funciones como la organización en niveles de Autoclass y las claves de encriptación administradas por el cliente (CMEK).
- Experiencia completamente administrada: Cuando se integra con BigQuery, Google Cloud Lakehouse usa la transmisión de alto rendimiento y la administración de metadatos en tiempo real para proporcionar una experiencia completamente administrada de transmisión, estadísticas y IA.
- Alta disponibilidad y recuperación ante desastres: Google Cloud Lakehouse ofrece opciones para la replicación entre regiones y la recuperación ante desastres (versión preliminar) para admitir la alta disponibilidad de tus datos.
Casos de uso
- Open lakehouse: Usa Cloud Storage como la capa de almacenamiento, y Google Cloud Lakehouse proporciona la interfaz de administración y gobernanza para los datos de Apache Iceberg.
- Integración analítica y transaccional: Accede a las tablas analíticas de Apache Iceberg directamente en AlloyDB para PostgreSQL (versión preliminar) para combinar datos analíticos con cargas de trabajo transaccionales.
- Acceso unificado: Permite que diferentes motores (Apache Spark, Apache Flink y BigQuery) interactúen con las mismas tablas de Apache Iceberg con metadatos coherentes.
Interfaces de catálogo
El catálogo de tiempo de ejecución de Lakehouse es un servicio de metadatos único que proporciona varias interfaces (extremos) para conectar tus datos en Cloud Storage y BigQuery. Para obtener más información, consulta Cómo funciona Google Cloud Lakehouse.
Extremo del catálogo de REST de Apache Iceberg: Proporciona una interfaz de REST estándar para una amplia compatibilidad con motores de código abierto como Apache Spark, Apache Flink y Trino. Esta es la interfaz recomendada para las cargas de trabajo nuevas y ofrece interoperabilidad completa de lectura y escritura.
Catálogo personalizado de Apache Iceberg para el extremo de BigQuery: Permite que los motores interoperen directamente con el catálogo de BigQuery. Esta interfaz se usa principalmente para las tablas administradas de Apache Iceberg de BigQuery y las cargas de trabajo existentes que realizan la transición a la arquitectura de lakehouse de Google Cloud.
Interfaces y herramientas
Puedes interactuar con los recursos de Google Cloud Lakehouse con las siguientes herramientas:
- Google Cloud consola: Usa la consola para crear catálogos, ver las propiedades de los catálogos, ver los registros de auditoría y configurar permisos.
- BigQuery SQL: Usa el DDL (lenguaje de definición de datos) de SQL estándar para crear y administrar tablas de Apache Iceberg y tablas externas integradas en el catálogo del entorno de ejecución de Lakehouse.
- Motores de código abierto: Usa motores como Apache Spark, Apache Flink y Apache Hive con el catálogo del entorno de ejecución de Lakehouse para leer y escribir datos.
- API del catálogo del entorno de ejecución de Lakehouse: Usa el extremo del catálogo de REST de Apache Iceberg para interactuar con el servicio a través de herramientas compatibles con la especificación de REST de Apache Iceberg abierta.
¿Qué sigue?
- Comprender la arquitectura de Google Cloud Lakehouse