¿Qué es Lakehouse para Apache Iceberg?

Lakehouse para Apache Iceberg es un motor de almacenamiento de alto rendimiento diseñado para crear data lakehouses abiertos. Al integrar el formato de tabla abierta de Apache Iceberg con el almacenamiento de nivel empresarial completamente administrado en Google Cloud, proporciona una interfaz unificada para la IA y el análisis avanzado.

Al desacoplar el almacenamiento del procesamiento, Lakehouse de Google Cloud garantiza una interoperabilidad perfecta en los sistemas analíticos y transaccionales. Esta arquitectura permite que varios motores, incluidos Apache Spark, Apache Flink, Apache Hive, Trino y BigQuery, accedan a una sola fuente de información, lo que elimina la duplicación de datos y garantiza estadísticas coherentes.

Ventajas clave

  • Arquitectura sin servidores: Lakehouse de Google Cloud elimina la necesidad de administrar servidores o clústeres, lo que reduce la sobrecarga operativa y se ajusta automáticamente según la demanda.
  • Administración y gobernanza de datos unificadas: La integración con Knowledge Catalog garantiza la definición y la aplicación centralizadas de las políticas de gobernanza en varios motores, y permite la búsqueda semántica, el linaje de datos y las verificaciones de calidad.
  • Extensiones de almacenamiento: Lakehouse de Google Cloud extiende las capacidades de administración de Cloud Storage para incluir funciones como la organización en niveles de Autoclass y las claves de encriptación administradas por el cliente (CMEK).
  • Experiencia completamente administrada: Cuando se integra con BigQuery, Lakehouse de Google Cloud usa la transmisión de alto rendimiento y la administración de metadatos en tiempo real para proporcionar una experiencia de transmisión, estadísticas y IA completamente administrada.
  • Alta disponibilidad y recuperación ante desastres: Lakehouse de Google Cloud ofrece opciones para la replicación entre regiones y la recuperación ante desastres (vista previa) para admitir la alta disponibilidad de tus datos.

Casos de uso

  • Lakehouse abierto: Usa Cloud Storage como la capa de almacenamiento, y Lakehouse de Google Cloud proporciona la interfaz de administración y gobernanza para los datos de Apache Iceberg.
  • Integración analítica y transaccional: Accede a las tablas analíticas de Apache Iceberg directamente en AlloyDB para PostgreSQL (vista previa) para combinar datos analíticos con cargas de trabajo transaccionales.
  • Acceso unificado: Permite que diferentes motores (Apache Spark, Apache Flink, BigQuery) interactúen con las mismas tablas de Apache Iceberg con metadatos coherentes.
  • IA y estadísticas entre nubes: Usa Lakehouse entre nubes (vista previa) para consultar datos en otros proveedores de servicios en la nube directamente desde Google Cloud sin necesidad de migrar datos.
  • Exploración de conjuntos de datos públicos: Consulta fácilmente conjuntos de datos públicos de alta calidad con el extremo del catálogo REST de Apache Iceberg sin administrar la infraestructura.

Interfaces y herramientas

Puedes interactuar con los recursos de Lakehouse de Google Cloud con las siguientes herramientas:

  • Google Cloud consola: Usa la consola para crear catálogos, ver las propiedades del catálogo , ver los registros de auditoría y configurar permisos.
  • BigQuery SQL: Usa el DDL (lenguaje de definición de datos) de SQL estándar para crear y administrar tablas de Apache Iceberg y tablas externas integradas con el catálogo de entornos de ejecución de Lakehouse.
  • Motores de código abierto: Usa motores como Apache Spark, Apache Flink y Apache Hive con el catálogo de entornos de ejecución de Lakehouse para leer y escribir datos.
  • API del catálogo de entornos de ejecución de Lakehouse: Usa el extremo del catálogo REST de Apache Iceberg para interactuar con el servicio con herramientas compatibles con la especificación REST abierta de Apache Iceberg.

¿Qué sigue?