¿Qué es Lakehouse para Apache Iceberg?

Lakehouse para Apache Iceberg es un motor de almacenamiento de alto rendimiento diseñado para crear data lakehouses abiertos. Al integrar el formato de tabla abierta de Apache Iceberg con el almacenamiento de nivel empresarial completamente administrado en Google Cloud, se proporciona una interfaz unificada para el análisis avanzado y la IA.

Para administrar los metadatos de tablas abiertas, Lakehouse para Apache Iceberg usa el catálogo de entornos de ejecución de Lakehouse. Este servicio de metadatos sin servidores y completamente administrado proporciona una única fuente de verdad en todos los sistemas dispares, centraliza el descubrimiento y elimina la necesidad de sincronizar metadatos entre diferentes repositorios.

Al desacoplar el almacenamiento del procesamiento, el Lakehouse de Google Cloud garantiza una interoperabilidad perfecta en los sistemas analíticos y transaccionales. Esta arquitectura permite que varios motores, incluidos Apache Spark, Apache Flink, Apache Hive, Trino y BigQuery, accedan a una sola fuente de verdad, lo que elimina la duplicación de datos y garantiza estadísticas coherentes.

Ventajas clave

  • Arquitectura sin servidores: El Lakehouse de Google Cloud elimina la necesidad de administrar servidores o clústeres, lo que reduce la sobrecarga operativa y se ajusta automáticamente según la demanda. En el caso de las cargas de trabajo de procesamiento, las sesiones interactivas y por lotes sin servidores eliminan la contención de recursos entre los trabajos y automatizan el mantenimiento de la infraestructura.
  • Administración y administración unificadas de datos: La integración con Knowledge Catalog garantiza la definición y la aplicación centralizadas de las políticas de administración en varios motores, y permite la búsqueda semántica, el linaje de datos y las verificaciones de calidad.
  • Extensiones de almacenamiento: El Lakehouse de Google Cloud extiende las capacidades de administración de Cloud Storage para incluir funciones como la organización en niveles de Clase automática y las claves de encriptación administradas por el cliente (CMEK).
  • Experiencia completamente administrada: Cuando se integra con BigQuery, el lakehouse de Google Cloud usa la transmisión de alto rendimiento y la administración de metadatos en tiempo real para proporcionar una experiencia completamente administrada de transmisión, análisis y IA.
  • Alta disponibilidad y recuperación ante desastres: El Lakehouse de Google Cloud ofrece opciones para la replicación entre regiones y la recuperación ante desastres (versión preliminar) para admitir la alta disponibilidad de tus datos.

Casos de uso

  • Lakehouse abierto: Usa Cloud Storage como la capa de almacenamiento, y Lakehouse de Google Cloud proporciona la interfaz de administración y gobernanza para los datos de Apache Iceberg.
  • Integración analítica y transaccional: Accede a las tablas analíticas de Apache Iceberg directamente en AlloyDB para PostgreSQL (versión preliminar) para combinar datos analíticos con cargas de trabajo transaccionales.
  • Acceso unificado: Permite que diferentes motores (Apache Spark, Apache Flink, BigQuery) interactúen con las mismas tablas de Apache Iceberg con metadatos coherentes.
  • Análisis y IA en múltiples nubes: Usa Lakehouse en múltiples nubes (versión preliminar) para sincronizar metadatos de otros proveedores de servicios en la nube, lo que te permite consultar datos con BigQuery o motores externos de código abierto a través del extremo del catálogo de Apache Iceberg REST, todo sin migrar los datos.
  • Exploración de conjuntos de datos públicos: Consulta fácilmente conjuntos de datos públicos de alta calidad con el extremo del catálogo REST de Apache Iceberg sin administrar la infraestructura.
  • Hive Metastore: Conecta motores de código abierto, como Apache Spark y Apache Hive, al catálogo del entorno de ejecución de Lakehouse con el catálogo de Hive (vista previa). Esto elimina la sobrecarga operativa de mantener un Hive Metastore (HMS) autoalojado y, al mismo tiempo, permite el uso compartido de datos sin problemas y las consultas directas a tablas en BigQuery.

Interfaces y herramientas

Puedes interactuar con los recursos de Lakehouse de Google Cloud con las siguientes herramientas:

  • Google Cloud consola: Usa la consola para crear catálogos, ver las propiedades de los catálogos, ver los registros de auditoría y configurar permisos.
  • BigQuery SQL: Usa el DDL (lenguaje de definición de datos) de SQL estándar para crear y administrar tablas externas y de Apache Iceberg integradas en el catálogo del entorno de ejecución de Lakehouse.
  • Motores de código abierto: Usa motores como Apache Spark, Apache Flink y Apache Hive con el catálogo de entornos de ejecución de Lakehouse para leer y escribir datos.
  • IDE y notebooks: Usa notebooks interactivos de Apache Spark y extensiones de IDE, como la extensión Data Agent Kit (DAK) para VS Code, para autenticarte en Google Cloud, crear código de forma interactiva y administrar sesiones de notebooks directamente en tu entorno de desarrollo.
  • Herramientas de organización y MLOps: Integra canalizaciones por lotes sin servidores y operaciones de catálogo con flujos de trabajo de organización usando Managed Service para Apache Airflow (antes, Cloud Composer) y Kubeflow Pipelines en Vertex AI.
  • API del catálogo de entorno de ejecución de Lakehouse: Usa el extremo del catálogo de REST de Apache Iceberg para interactuar con el servicio a través de herramientas compatibles con la especificación de REST de Apache Iceberg abierta.

¿Qué sigue?