Lakehouse for Apache Iceberg 是一款高性能存储引擎,专为构建开放式数据湖仓而设计。通过将 Apache Iceberg 开放表格式与 Google Cloud 上全代管式企业级存储集成 Google Cloud,它 为高级分析和 AI 提供统一的接口。
通过将存储与计算分离,Google Cloud 的 Lakehouse 确保了分析系统和事务系统之间的无缝互操作性。 借助此架构,包括 Apache Spark、Apache Flink、Apache Hive、Trino 和 BigQuery 在内的多个引擎可以访问单一的事实来源,从而消除数据重复并确保洞见的一致性。
主要优势
- 无服务器架构: Google Cloud 的 Lakehouse 无需服务器或集群管理,可减少运营开销并根据需求自动伸缩。
- 统一的数据管理和治理: 与 Knowledge Catalog 集成可确保在多个 引擎中集中定义和执行治理政策,并支持语义搜索、数据沿袭和质量检查。
- 存储扩展: Google Cloud 的 Lakehouse 扩展了 Cloud Storage 管理功能,包括自动分类分层和客户管理的加密密钥 (CMEK) 等功能。
- 全托管式体验:与 BigQuery 集成后,Google Cloud 的 Lakehouse 会使用高吞吐量流式处理和实时元数据管理来提供全代管式流式处理、分析和 AI 体验。
- 高可用性和灾难恢复: Google Cloud 的 Lakehouse 提供跨区域复制和 灾难恢复 (预览版)选项,以支持数据的高可用性。
使用场景
- 开放式湖仓一体: 使用 Cloud Storage 作为存储层,Google Cloud 的 Lakehouse 为 Apache Iceberg 数据提供管理和治理接口。
- 分析和事务集成: 直接在 AlloyDB for PostgreSQL (预览版)中访问分析型 Apache Iceberg 表,以将分析数据与事务型工作负载相结合。
- 统一访问: 让不同的引擎(Apache Spark、Apache Flink、BigQuery)与具有一致元数据的同一 Apache Iceberg 表进行交互。
- 跨云分析和 AI: 使用 Cross-cloud Lakehouse (预览版)直接从 Google Cloud 查询其他云提供商中的数据,而无需进行数据迁移。 Google Cloud
- 公共数据集探索: 使用 Apache Iceberg REST Catalog 端点轻松查询高质量的公共数据集,而无需管理基础架构。
目录接口
Lakehouse 运行时目录 是一项单一的元数据服务,可提供多个接口(端点)来连接 Cloud Storage 和 BigQuery 中的数据。
Apache Iceberg REST Catalog 端点: 提供标准 REST 接口,可与 Apache Spark、Apache Flink 和 Trino 等开源引擎广泛兼容。这是新工作负载的推荐接口,可提供完整的读/写互操作性。
。适用于 BigQuery 端点的自定义 Apache Iceberg 目录: 使引擎能够直接与 BigQuery 目录进行互操作。此接口主要用于 BigQuery 托管的 Apache Iceberg 表 和过渡到 Google Cloud 的 Lakehouse 架构的现有工作负载。
接口和工具
您可以使用以下工具与 Google Cloud 的 Lakehouse 资源进行交互:
- Google Cloud 控制台:使用控制台创建目录、查看目录 属性、查看审核日志和配置权限。
- BigQuery SQL: 使用标准 SQL DDL(数据定义语言)创建和管理与 Lakehouse 运行时目录集成的 Apache Iceberg 表和外部表。
- 开源引擎: 将 Apache Spark、Apache Flink 和 Apache Hive 等引擎与 Lakehouse 运行时目录搭配使用,以读取和写入数据。
- Lakehouse 运行时目录 API: 使用 Apache Iceberg REST Catalog 端点,通过与开放式 Apache Iceberg REST 规范兼容的工具与服务进行交互。
后续步骤
- 了解 Google Cloud 的 Lakehouse 的架构。