Google Cloud Lakehouse 是一款高性能存储引擎,专为构建开放式数据湖仓而设计。通过将 Apache Iceberg 开放式表格式与 Google Cloud 上全代管式企业级存储相集成,它为高级分析和 AI 提供统一的界面。Google Cloud
通过将存储与计算分离,Google Cloud Lakehouse 可确保分析系统和事务系统之间的无缝互操作性。借助此架构,多个引擎(包括 Apache Spark、Apache Flink、Apache Hive、Trino 和 BigQuery)可以访问单一的事实来源,从而消除数据重复并确保洞见的一致性。
主要优势
- 无服务器架构: Google Cloud Lakehouse 无需进行服务器或集群管理,从而减少运营开销并根据需求自动伸缩。
- 统一的数据管理和治理: 与 Knowledge Catalog 集成可确保在多个 引擎中集中定义和执行治理政策,并支持语义搜索、数据沿袭和质量检查。
- 存储扩展: Google Cloud Lakehouse 扩展了 Cloud Storage 管理功能,以包含自动分类分层和客户管理的加密密钥 (CMEK) 等功能。
- 全托管式体验:与 BigQuery 集成后,Google Cloud Lakehouse 会使用高吞吐量流式传输和实时元数据管理来提供全代管式流式传输、分析和 AI 体验。
- 高可用性和灾难恢复: Google Cloud Lakehouse 提供 跨区域复制和灾难恢复 (预览版)选项,以支持数据的高 可用性。
使用场景
- 开放式湖仓一体: 使用 Cloud Storage 作为存储层,Google Cloud Lakehouse 为 Apache Iceberg 数据提供管理和治理界面。
- 分析和事务集成: 直接在 AlloyDB for PostgreSQL (预览版)中访问分析型 Apache Iceberg 表,以将分析型数据与事务型工作负载相结合。
- 统一访问: 让不同的引擎(Apache Spark、Apache Flink、BigQuery)与具有一致元数据的同一 Apache Iceberg 表进行交互。
目录界面
Lakehouse 运行时目录 是一项单一的元数据服务,可提供多个界面(端点),用于连接 Cloud Storage 和 BigQuery 中的数据。如需了解详情,请参阅 How Google Cloud Lakehouse 的工作原理。
Apache Iceberg REST 目录端点: 提供标准 REST 界面,可与 Apache Spark、Apache Flink 和 Trino 等开源引擎广泛兼容。这是新工作负载的推荐界面,并提供完整的读/写互操作性。
适用于 BigQuery 端点的自定义 Apache Iceberg 目录: 使引擎能够直接与 BigQuery 目录进行互操作。此界面主要用于 BigQuery 托管的 Apache Iceberg 表 和过渡到 Google Cloud Lakehouse 架构的现有工作负载。
界面和工具
您可以使用以下工具与 Google Cloud Lakehouse 资源进行交互:
- Google Cloud 控制台:使用控制台创建目录、查看目录 属性、查看审核日志以及配置权限。
- BigQuery SQL: 使用标准 SQL DDL(数据定义语言)创建和管理与 Lakehouse 运行时目录集成的 Apache Iceberg 表和外部表。
- 开源引擎: 将 Apache Spark、Apache Flink 和 Apache Hive 等引擎与 Lakehouse 运行时目录搭配使用,以读取和写入数据。
- Lakehouse 运行时目录 API: 使用 Apache Iceberg REST 目录端点,通过与开放式 Apache Iceberg REST 规范兼容的工具与服务进行交互。
后续步骤
- 了解 Google Cloud Lakehouse 的架构。