BigLake 概览

BigLake 是一款存储引擎,可将 Google Cloud 和开源服务整合在一起,从而为高级分析和 AI 创建统一的界面。它为您提供了使用 Apache Iceberg 构建开放式、托管式且高性能的湖仓一体架构所需的基础,该架构具有自动化数据管理和内置治理功能。

BigLake 可在所有与 Iceberg 兼容的引擎(如 Apache Spark 或 BigQuery)之间实现互操作性,从而为您提供一致的数据视图。它还扩展了 Cloud Storage 管理功能,包括存储分区上的自动分类分层、加密和客户管理的加密密钥等功能。此外,通过与 Dataplex Universal Catalog 的内置集成,可确保集中定义治理政策,并在多个引擎中一致执行这些政策,同时支持语义搜索、数据沿袭、数据分析和质量检查。

BigLake 与 BigQuery 集成后,还可提供全代管式 Iceberg 体验。借助 BigQuery 的高度可伸缩的实时元数据管理功能,您可以兼得开放性和数据所有权,以及高性能的分析、流式处理和 AI。

架构

使用 BigLake 构建的数据湖仓包含以下组件:

  • 存储功能。Cloud Storage,建议使用 Apache Iceberg 作为开放式表格式。
  • 元数据存储区。BigLake metastore 是一种统一的、无服务器且可伸缩的托管式 metastore,可提供单一可信来源,用于管理多个引擎的元数据。
  • 查询引擎。BigQuery、Apache Spark、Apache Flink、Trino 和其他开源引擎均与 BigLake 兼容。
  • 用于数据写入和分析的工具。BigQuery、Spark、Flink、Trino 和其他开源工具与 BigLake 集成,可提供多种写入和分析途径。

BigLake 将所有这些组件整合到统一治理的一站式体验中。如需详细了解 BigLake 架构和创新,请参阅 BigLake 发展

BigLake metastore

BigLake metastore 是一种全代管式无服务器 metastore,适用于 Google Cloud上的湖仓一体。它提供了一个可信来源,用于管理来自多个来源的元数据,并且可以从 BigQuery 和各种开放数据处理引擎访问,从而无需使用自定义工具在不同代码库之间复制和同步元数据。

BigLake metastore 受 Dataplex Universal Catalog 支持,后者可在所有受支持的引擎中提供统一且精细的访问权限控制,并实现端到端治理,包括全面的沿袭、数据质量和可发现性功能。

表格式

在 BigLake 上构建湖仓一体时,您可以选择以下表格格式:

  • BigQuery 中的 BigLake Iceberg 表是您通过 BigQuery 创建并存储在 Cloud Storage 中的 Iceberg 表。与使用 BigLake metastore 的所有表一样,它们可以由开源引擎和 BigQuery 读取。不过,只有 BigQuery 引擎可以直接写入这些表。如果您希望 BigQuery 全代管式提取、转换和加载 (ETL) 工作流,此选项是最佳选择。
  • BigLake Iceberg 表是您通过开源引擎创建并存储在 Cloud Storage 中的 Iceberg 表。与使用 BigLake metastore 的所有表一样,它们可以由开源引擎和 BigQuery 读取。不过,只有创建该表的开源引擎才能向该表写入数据。如果您希望 ETL 工作流由开源引擎管理,最好选择此选项。
  • 标准 BigQuery 表由 BigQuery 完全管理,并具有最先进的数据分析和管理功能。您仍然可以将这些表连接到 BigLake metastore。此选项最适合非 Iceberg 表。
  • 外部表是指 BigLake metastore 之外的表。这些表的数据和元数据完全由您自行管理,您完全依赖于开放表格式(例如 Iceberg、Apache Hudi 或 Delta Lake)的功能。BigQuery 只能读取这些表中的数据。如果您想在第三方目录中自行管理数据和元数据,请选择此选项。

您可以使用下表比较表格式选项:

外部表 BigLake Iceberg 表 BigQuery 中的 BigLake Iceberg 表 标准 BigQuery 表
Metastore 外部或自托管 metastore BigLake metastore BigLake metastore BigQuery
存储 Cloud Storage / Amazon S3 / Azure Cloud Storage Cloud Storage BigQuery
存储空间优化 由客户或第三方管理 由客户或第三方管理 由 Google 管理 由 Google 管理
读取/写入 开源引擎(读取/写入)

BigQuery(只读)
开源引擎(读取/写入)

BigQuery(只读)
开源引擎(通过 Iceberg 库实现只读操作,通过 BigQuery Storage API 实现读/写互操作性)

BigQuery(读/写)

开源引擎(通过 BigQuery Storage API 实现读/写互操作性)

BigQuery(读/写)

使用场景 用于 BigQuery 加载的暂存表、仅限查询的旧版表 开放式湖仓一体 开放式湖仓一体,具有高性能的企业级存储,可用于高级分析、流式处理和 AI 适用于高级分析、流式传输和 AI 的企业级存储

后续步骤