¿Qué es Lakehouse para Apache Iceberg?

Lakehouse para Apache Iceberg es un motor de almacenamiento de alto rendimiento diseñado para crear data lakehouses abiertos. Al integrar el formato de tabla abierta de Apache Iceberg con el almacenamiento de nivel empresarial completamente administrado en Google Cloud, proporciona una interfaz unificada para la IA y la analítica avanzada.

Para administrar los metadatos de la tabla abierta, Lakehouse para Apache Iceberg usa el catálogo de entornos de ejecución de Lakehouse. Este servicio de metadatos sin servidores y completamente administrado proporciona una única fuente de información en sistemas dispares, centraliza el descubrimiento y elimina la necesidad de sincronizar metadatos entre diferentes repositorios.

Al desacoplar el almacenamiento del procesamiento, el Lakehouse de Google Cloud garantiza una interoperabilidad perfecta en los sistemas analíticos y transaccionales. Esta arquitectura permite que varios motores, incluidos Apache Spark, Apache Flink, Apache Hive, Trino y BigQuery, accedan a una única fuente de información, lo que elimina la duplicación de datos y garantiza estadísticas coherentes.

Ventajas clave

  • Arquitectura sin servidores: El Lakehouse de Google Cloud elimina la necesidad de administrar servidores o clústeres, lo que reduce la sobrecarga operativa y se ajusta automáticamente según la demanda.
  • Administración y administración de datos unificadas: La integración con Knowledge Catalog garantiza la definición y la aplicación central de las políticas de administración en varios motores, y permite la búsqueda semántica, el linaje de datos y las verificaciones de calidad.
  • Extensiones de almacenamiento: El Lakehouse de Google Cloud extiende las capacidades de administración de Cloud Storage para incluir funciones como la organización en niveles de Autoclass y las claves de encriptación administradas por el cliente (CMEK).
  • Experiencia completamente administrada: Cuando se integra con BigQuery, el Lakehouse de Google Cloud usa la transmisión de alto rendimiento y la administración de metadatos en tiempo real para proporcionar una experiencia de transmisión, analítica y de IA completamente administrada.
  • Alta disponibilidad y recuperación ante desastres: El Lakehouse de Google Cloud ofrece opciones para la replicación entre regiones y la recuperación ante desastres (vista previa) para admitir la alta disponibilidad de tus datos.

Casos de uso

  • Lakehouse abierto: Usa Cloud Storage como la capa de almacenamiento, y el Lakehouse de Google Cloud proporciona la interfaz de administración y administración para los datos de Apache Iceberg.
  • Integración analítica y transaccional: Accede a las tablas analíticas de Apache Iceberg directamente en AlloyDB para PostgreSQL (vista previa) para combinar datos analíticos con cargas de trabajo transaccionales.
  • Acceso unificado: Permite que diferentes motores (Apache Spark, Apache Flink, BigQuery) interactúen con las mismas tablas de Apache Iceberg con metadatos coherentes.
  • IA y analítica entre nubes: Usa Lakehouse entre nubes (vista previa) para sincronizar metadatos de otros proveedores de servicios en la nube, lo que te permite consultar datos con BigQuery o motores externos de código abierto a través del extremo del catálogo REST de Apache Iceberg, todo sin migrar los datos.
  • Exploración de conjuntos de datos públicos: Consulta fácilmente conjuntos de datos públicos de alta calidad con el extremo del catálogo REST de Apache Iceberg sin administrar la infraestructura.
  • Hive Metastore Conecta motores de código abierto, como Apache Spark y Apache Hive, al catálogo de entornos de ejecución de Lakehouse con el catálogo de Hive (vista previa). Esto elimina la sobrecarga operativa de mantener un Hive Metastore (HMS) autoalojado y, al mismo tiempo, permite el uso compartido de datos sin problemas y las consultas directas de tablas en BigQuery.

Interfaces y herramientas

Puedes interactuar con los recursos de Lakehouse de Google Cloud con las siguientes herramientas:

  • Google Cloud consola: Usa la consola para crear catálogos, ver las propiedades del catálogo , ver los registros de auditoría y configurar permisos.
  • BigQuery SQL: Usa DDL (lenguaje de definición de datos) de SQL estándar para crear y administrar tablas de Apache Iceberg y tablas externas integradas con el catálogo de entornos de ejecución de Lakehouse.
  • Motores de código abierto: Usa motores como Apache Spark, Apache Flink y Apache Hive con el catálogo de entornos de ejecución de Lakehouse para leer y escribir datos.
  • API de catálogo de entornos de ejecución de Lakehouse: Usa el extremo del catálogo REST de Apache Iceberg para interactuar con el servicio con herramientas que sean compatibles con la especificación REST abierta de Apache Iceberg.

¿Qué sigue?