Lakehouse for Apache Iceberg 是一种高性能存储引擎,旨在用于构建开放式数据湖仓。通过将 Apache Iceberg 开放表格式与 Google Cloud上的全代管式企业级存储相集成,它可为高级分析和 AI 提供统一的界面。
为了管理开放式表元数据,Lakehouse for Apache Iceberg 使用 Lakehouse 运行时目录。这项全代管式无服务器元数据服务可在不同系统之间提供单一可信来源,集中进行发现,并无需在不同代码库之间同步元数据。
通过将存储与计算分离,Google Cloud 的Lakehouse可确保分析系统和事务系统之间的无缝互操作性。借助此架构,多个引擎(包括 Apache Spark、Apache Flink、Apache Hive、Trino 和 BigQuery)可以访问单一的事实来源,从而消除数据重复并确保分析洞见的一致性。
主要优势
- 无服务器架构:Google Cloud 的数据湖仓无需进行服务器或集群管理,可减少运营开销并根据需求自动伸缩。对于计算工作负载,无服务器批量会话和交互式会话可消除作业之间的资源争用,并自动执行基础架构维护。
- 统一的数据管理和治理:与 Knowledge Catalog 集成可确保在多个引擎中集中定义和执行治理政策,并支持语义搜索、数据沿袭和质量检查。
- 存储扩展程序:Google Cloud 的数据湖仓扩展了 Cloud Storage 管理功能,纳入了自动分类分层和客户管理的加密密钥 (CMEK) 等功能。
- 全托管式体验:与 BigQuery 集成后,Google Cloud 的湖仓一体架构可使用高吞吐量流式传输和实时元数据管理来提供全代管式流式传输、分析和 AI 体验。
- 高可用性和灾难恢复:Google Cloud 的 Lakehouse 提供跨区域复制和灾难恢复(预览版)选项,以支持数据的高可用性。
使用场景
- 开放式湖仓一体:使用 Cloud Storage 作为存储层,Google Cloud 的 Lakehouse 为 Apache Iceberg 数据提供管理和治理界面。
- 分析型和事务型集成:直接在 AlloyDB for PostgreSQL(预览版)中访问分析型 Apache Iceberg 表,以将分析型数据与事务型工作负载相结合。
- 统一访问:允许不同引擎(Apache Spark、Apache Flink、BigQuery)与具有一致元数据的相同 Apache Iceberg 表进行交互。
- 跨云分析和 AI:使用跨云 Lakehouse(预览版)同步来自其他云提供商的元数据,让您能够通过 Apache Iceberg REST 目录端点使用 BigQuery 或外部开源引擎查询数据,而无需迁移数据。
- 公共数据集探索:使用 Apache Iceberg REST Catalog 端点轻松查询高质量的公共数据集,而无需管理基础架构。
- Hive Metastore:使用 Hive 目录(预览版)将 Apache Spark 和 Apache Hive 等开源引擎连接到 Lakehouse 运行时目录。这样一来,您无需再自行托管 Hive Metastore (HMS),从而消除了运营开销,同时还可以在 BigQuery 中实现无缝数据共享和直接表查询。
界面和工具
您可以使用以下工具与 Google Cloud 的 Lakehouse 资源进行交互:
- Google Cloud 控制台:使用控制台创建目录、查看目录属性、查看审核日志和配置权限。
- BigQuery SQL:使用标准 SQL DDL(数据定义语言)创建和管理与 Lakehouse 运行时目录集成的 Apache Iceberg 表和外部表。
- 开源引擎:将 Apache Spark、Apache Flink 和 Apache Hive 等引擎与 Lakehouse 运行时目录搭配使用,以读取和写入数据。
- IDE 和笔记本:使用交互式 Apache Spark 笔记本和 IDE 扩展程序(例如适用于 VS Code 的 Data Agent Kit (DAK) 扩展程序)向 Google Cloud 进行身份验证、以交互方式编写代码,以及直接在开发环境中管理笔记本会话。
- 编排和 MLOps 工具:使用 Vertex AI 中的 Managed Service for Apache Airflow(以前称为 Cloud Composer)和 Kubeflow Pipelines,将无服务器批处理流水线和目录操作与编排工作流集成。
- Lakehouse 运行时目录 API:使用 Apache Iceberg REST 目录端点,通过与开放式 Apache Iceberg REST 规范兼容的工具与服务进行交互。
后续步骤
- 了解 Google Cloud 的 Lakehouse 架构。