Lakehouse para Apache Iceberg es un motor de almacenamiento de alto rendimiento diseñado para crear data lakehouses abiertos. Al integrar el formato de tabla abierta de Apache Iceberg con el almacenamiento completamente administrado de nivel empresarial en Google Cloud, proporciona una interfaz unificada para la IA y la analítica avanzada.
Para administrar los metadatos de la tabla abierta, Lakehouse para Apache Iceberg usa el catálogo de entornos de ejecución de Lakehouse. Este servicio de metadatos sin servidores y completamente administrado proporciona una única fuente de información en sistemas dispares, centraliza el descubrimiento y elimina la necesidad de sincronizar metadatos entre diferentes repositorios.
Al desacoplar el almacenamiento del procesamiento, Lakehouse de Google Cloud garantiza una interoperabilidad perfecta en los sistemas analíticos y transaccionales. Esta arquitectura permite que varios motores, incluidos Apache Spark, Apache Flink, Apache Hive, Trino y BigQuery, accedan a una única fuente de información, lo que elimina la duplicación de datos y garantiza estadísticas coherentes.
Ventajas clave
- Arquitectura sin servidores: Lakehouse de Google Cloud elimina la necesidad de administrar servidores o clústeres, lo que reduce la sobrecarga operativa y se ajusta automáticamente según la demanda. Para las cargas de trabajo de procesamiento, las sesiones interactivas y por lotes sin servidores eliminan la contención de recursos entre los trabajos y automatizan el mantenimiento de la infraestructura.
- Administración y administración de datos unificadas: La integración con Knowledge Catalog garantiza la definición y la aplicación central de las políticas de administración en varios motores, y permite la búsqueda semántica, el linaje de datos y las verificaciones de calidad.
- Extensiones de almacenamiento: Lakehouse de Google Cloud extiende las capacidades de administración de Cloud Storage para incluir funciones como la organización en niveles de Autoclass y las claves de encriptación administradas por el cliente (CMEK).
- Experiencia completamente administrada: Cuando se integra con BigQuery, Lakehouse de Google Cloud usa la transmisión de alto rendimiento y la administración de metadatos en tiempo real para proporcionar una experiencia de transmisión, analítica y de IA completamente administrada.
- Alta disponibilidad y recuperación ante desastres: Lakehouse de Google Cloud ofrece opciones para la replicación entre regiones y la recuperación ante desastres (vista previa) para admitir la alta disponibilidad de tus datos.
Casos de uso
- Lakehouse abierto: Usa Cloud Storage como la capa de almacenamiento, y Lakehouse de Google Cloud proporciona la interfaz de administración y administración para los datos de Apache Iceberg.
- Integración analítica y transaccional: Accede a las tablas analíticas de Apache Iceberg directamente en AlloyDB para PostgreSQL (vista previa) para combinar datos analíticos con cargas de trabajo transaccionales.
- Acceso unificado: Permite que diferentes motores (Apache Spark, Apache Flink, BigQuery) interactúen con las mismas tablas de Apache Iceberg con metadatos coherentes.
- IA y analítica entre nubes: Usa Lakehouse entre nubes (vista previa) para sincronizar metadatos de otros proveedores de servicios en la nube, lo que te permite consultar datos con BigQuery o motores externos de código abierto a través del extremo del catálogo REST de Apache Iceberg, todo sin migrar los datos.
- Exploración de conjuntos de datos públicos: Consulta fácilmente conjuntos de datos públicos de alta calidad con el extremo del catálogo REST de Apache Iceberg sin administrar la infraestructura.
- Hive Metastore Conecta motores de código abierto, como Apache Spark y Apache Hive, al catálogo de entornos de ejecución de Lakehouse con el catálogo de Hive (vista previa). Esto elimina la sobrecarga operativa de mantener un Hive Metastore (HMS) autoalojado y, al mismo tiempo, permite el uso compartido de datos sin problemas y las consultas directas de tablas en BigQuery.
Interfaces y herramientas
Puedes interactuar con los recursos de Lakehouse de Google Cloud con las siguientes herramientas:
- Google Cloud consola: Usa la consola para crear catálogos, ver las propiedades del catálogo , ver los registros de auditoría y configurar permisos.
- SQL de BigQuery: Usa DDL (lenguaje de definición de datos) de SQL estándar para crear y administrar tablas de Apache Iceberg y tablas externas integradas con el catálogo de entornos de ejecución de Lakehouse.
- Motores de código abierto: Usa motores como Apache Spark, Apache Flink y Apache Hive con el catálogo de entornos de ejecución de Lakehouse para leer y escribir datos.
- IDE y notebooks: Usa notebooks interactivas de Apache Spark y extensiones de IDE, como la extensión Data Agent Kit (DAK) para VS Code, para autenticarte en Google Cloud, crear código de forma interactiva y administrar sesiones de notebooks directamente en tu entorno de desarrollo.
- Herramientas de organización y MLOps: Integra canalizaciones por lotes sin servidores y operaciones de catálogo con flujos de trabajo de organización con Managed Service para Apache Airflow (anteriormente Cloud Composer) y Kubeflow Pipelines en Vertex AI.
- API del catálogo de entornos de ejecución de Lakehouse: Usa el extremo del catálogo REST de Apache Iceberg para interactuar con el servicio con herramientas compatibles con la especificación REST abierta de Apache Iceberg.
- Compatibilidad con tablas de Apache Iceberg: Solo se admiten tablas de Apache Iceberg V2; no se admiten tablas de Iceberg V1. Si tienes tablas de Iceberg V1 existentes, debes actualizarlas a la V2 (por ejemplo, ejecutando
ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2');o usando operaciones de motor similares) antes de usarlas con Lakehouse para Apache Iceberg.
¿Qué sigue?
- Comprende la arquitectura de Lakehouse de Google Cloud.