Google Cloud Lakehouse es un motor de almacenamiento de alto rendimiento diseñado para crear data lakehouses abiertos. Al integrar el formato de tabla abierta de Apache Iceberg con el almacenamiento completamente administrado y de nivel empresarial enGoogle Cloud, se proporciona una interfaz unificada para la IA y el análisis avanzados.
Al separar el almacenamiento del procesamiento, el data lakehouse de Google Cloud garantiza una interoperabilidad perfecta en los sistemas analíticos y transaccionales. Esta arquitectura permite que varios motores, incluidos Apache Spark, Apache Flink, Apache Hive, Trino y BigQuery, accedan a una sola fuente de verdad, lo que elimina la duplicación de datos y garantiza estadísticas coherentes.
Ventajas clave
- Arquitectura sin servidores: Google Cloud Lakehouse elimina la necesidad de administrar servidores o clústeres, lo que reduce la sobrecarga operativa y se ajusta automáticamente según la demanda.
- Administración y administración de datos unificadas: La integración con Knowledge Catalog garantiza la definición y la aplicación centralizadas de las políticas de administración en varios motores, y permite la búsqueda semántica, el linaje de datos y las verificaciones de calidad.
- Extensiones de almacenamiento: Google Cloud Lakehouse extiende las capacidades de administración de Cloud Storage para incluir funciones como la organización en niveles de Autoclass y las claves de encriptación administradas por el cliente (CMEK).
- Experiencia completamente administrada: Cuando se integra con BigQuery, Google Cloud Lakehouse usa la transmisión de alto rendimiento y la administración de metadatos en tiempo real para proporcionar una experiencia completamente administrada de transmisión, estadísticas y IA.
- Alta disponibilidad y recuperación ante desastres: Google Cloud Lakehouse ofrece opciones para la replicación entre regiones y la recuperación ante desastres (versión preliminar) para admitir la alta disponibilidad de tus datos.
Casos de uso
- Lakehouse abierto: Usa Cloud Storage como la capa de almacenamiento, y Google Cloud Lakehouse proporciona la interfaz de administración y gobierno para los datos de Apache Iceberg.
- Integración analítica y transaccional: Accede a las tablas analíticas de Apache Iceberg directamente en AlloyDB para PostgreSQL (versión preliminar) para combinar datos analíticos con cargas de trabajo transaccionales.
- Acceso unificado: Permite que diferentes motores (Apache Spark, Apache Flink y BigQuery) interactúen con las mismas tablas de Apache Iceberg con metadatos coherentes.
- Análisis y IA en múltiples nubes: Usa Cross-cloud Lakehouse (versión preliminar) para consultar datos en otros proveedores de servicios en la nube directamente desde Google Cloud sin necesidad de migrar datos.
- Exploración de conjuntos de datos públicos: Consulta fácilmente conjuntos de datos públicos de alta calidad con el extremo del catálogo REST de Apache Iceberg sin administrar la infraestructura.
Interfaces de catálogo
El catálogo del entorno de ejecución de Lakehouse es un servicio de metadatos único que proporciona varias interfaces (endpoints) para conectar tus datos en Cloud Storage y BigQuery. Para obtener más información, consulta Cómo funciona Google Cloud Lakehouse.
Extremo del catálogo de REST de Apache Iceberg: Proporciona una interfaz de REST estándar para una amplia compatibilidad con motores de código abierto, como Apache Spark, Apache Flink y Trino. Esta es la interfaz recomendada para las cargas de trabajo nuevas y ofrece interoperabilidad completa de lectura y escritura.
Catálogo personalizado de Apache Iceberg para el extremo de BigQuery: Permite que los motores interoperen directamente con el catálogo de BigQuery. Esta interfaz se usa principalmente para las tablas administradas de Apache Iceberg de BigQuery y las cargas de trabajo existentes que realizan la transición a la arquitectura de lakehouse de Google Cloud.
Interfaces y herramientas
Puedes interactuar con los recursos de Google Cloud Lakehouse con las siguientes herramientas:
- Google Cloud consola: Usa la consola para crear catálogos, ver las propiedades de los catálogos, ver los registros de auditoría y configurar permisos.
- SQL de BigQuery: Usa el DDL (lenguaje de definición de datos) de SQL estándar para crear y administrar tablas externas y de Apache Iceberg integradas en el catálogo del entorno de ejecución de Lakehouse.
- Motores de código abierto: Usa motores como Apache Spark, Apache Flink y Apache Hive con el catálogo del entorno de ejecución de Lakehouse para leer y escribir datos.
- API del catálogo del entorno de ejecución de Lakehouse: Usa el extremo del catálogo de REST de Apache Iceberg para interactuar con el servicio a través de herramientas compatibles con la especificación de REST de Apache Iceberg abierta.
¿Qué sigue?
- Comprender la arquitectura de Google Cloud Lakehouse