什么是 BigLake?

BigLake 是一款存储引擎,可将 Google Cloud 和开源服务整合在一起,从而为高级分析和 AI 创建统一的界面。它为构建开放式、托管式且高性能的湖仓一体架构奠定了基础,该架构可使用 Apache Iceberg 实现自动化数据管理与内置治理。

通过将存储与计算分离,BigLake 可在所有与 Iceberg 兼容的引擎(例如 Apache Spark、Apache Flink、Apache Hive、Trino 或 BigQuery)之间实现互操作性,从而确保数据视图的一致性。

主要优势

  • 无服务器架构:BigLake 无需进行服务器或集群管理,可减少运营开销,并根据需求自动伸缩。
  • 统一的数据管理和治理:与 Dataplex Universal Catalog 集成可确保在多个引擎中集中定义和强制执行治理政策,并支持语义搜索、数据沿袭和质量检查。
  • 存储扩展程序:BigLake 扩展了 Cloud Storage 管理功能,使其包含 Autoclass 分层和客户管理的加密密钥 (CMEK) 等功能。
  • 全托管式体验:与 BigQuery 集成后,BigLake 会使用高吞吐量流式传输和实时元数据管理来提供全代管式流式传输、分析和 AI 体验。
  • 高可用性和灾难恢复:BigLake 提供跨区域复制和灾难恢复(预览版)选项,以支持数据的高可用性。

使用场景

  • 开放式湖仓一体:使用 Cloud Storage 作为存储层,而 BigLake 为 Iceberg 数据提供管理和治理接口。
  • 分析和事务集成:在 AlloyDB for PostgreSQL(预览版)中直接访问分析型 BigLake Iceberg 表,以将分析数据与事务型工作负载相结合。
  • 统一访问:让不同的引擎(Spark、Flink、BigQuery)能够以一致的元数据与相同的 Iceberg 表进行交互。

目录界面

BigLake metastore 提供两个主要目录接口,用于连接 Cloud Storage 和 BigQuery 中的数据。如需了解详情,请参阅 BigLake 的运作方式

界面和工具

您可以使用以下工具与 BigLake 资源进行交互:

  • Google Cloud 控制台:使用控制台创建目录、查看目录属性、查看审核日志和配置权限。
  • BigQuery SQL:使用标准 SQL DDL(数据定义语言)创建和管理 BigLake Iceberg 表。
  • 开源引擎:将 Apache Spark、Apache Flink 和 Apache Hive 等引擎与 BigLake metastore 搭配使用,以读取和写入数据。
  • BigLake metastore API:使用与 Iceberg REST 目录规范兼容的 REST API。

后续步骤