主要概念

本文档定义了 BigLake 的关键术语和概念。

此页面并非详尽的功能列表,而是对整个 BigLake 文档中使用的术语和概念的一般参考。

核心概念

以下概念构成了 BigLake 架构的基础。

数据湖仓一体

数据湖仓一体是一种数据架构,它将数据湖的成本效益和灵活性与数据仓库的数据管理和性能结构相结合。借助 BigLake,您可以在 Cloud Storage 中以开放格式存储数据,同时使用 BigQuery 的精细安全性和高性能查询等功能,从而实现湖仓一体架构。

开放式互操作性

开放互操作性是指多个分析和事务处理系统(例如 BigQuery、Spark 和 Flink)能够以 Apache Iceberg 等开放格式处理单个数据副本。这样就无需复制数据,并可确保在不同工具中获得一致的数据视图。

BigLake Metastore

BigLake metastore 是一项集中式无服务器元数据服务,可作为湖仓一体架构的单一可靠来源。借助它,Spark、Flink 和 BigQuery 等多个引擎可以同时发现和查询相同的表。

目录类型

BigLake metastore 提供两种不同类型的目录来管理元数据。选择哪个目录是一项基本决策,会影响您与数据的互动方式。

Iceberg REST 目录

这是一个基于 Apache Iceberg REST 目录规范的目录。它提供开源引擎与 BigQuery 之间的互操作性,并支持凭据自动售卖和灾难恢复等功能。

BigQuery 的自定义 Iceberg 目录

此集成直接使用 BigQuery 作为后端 Metastore。

表格式

BigLake 支持多种表格式,具体取决于用于管理数据的引擎。

BigQuery 中的 BigLake Iceberg 表

这些表是您通过 BigQuery 创建并存储在 Cloud Storage 中的 Iceberg 表。BigQuery 会处理所有数据布局和优化。虽然多个引擎都可以读取这些表,但只有 BigQuery 引擎可以直接写入这些表。

BigLake Iceberg 表

这些表是通过开源引擎创建并存储在 Cloud Storage 中的 Iceberg 表。BigLake metastore 用作中央目录。只有创建该表的开源引擎才能向该表写入数据。

标准 BigQuery 表

这些表由 BigQuery 管理,并将数据存储在 BigQuery 存储空间中。您可以将这些表连接到 BigLake metastore。

外部表

外部表位于 BigLake metastore 之外。数据和元数据在第三方目录中自行管理。BigQuery 只能读取这些表中的数据。

表格功能

BigLake 提供了多项功能,可简化数据管理并提高 Iceberg 表的查询性能。

表格演变

BigLake 支持 Iceberg 表演进,让您可以随着时间的推移更改表的架构或分区规范,而无需重写表数据或重新创建表。

时间旅行

借助“时间旅行”,您可以查询表在特定时间点或快照 ID 时的现有数据。这对于审核、重现实验或在意外删除后恢复数据非常有用。

元数据缓存

元数据缓存是一项可提高 BigLake 外部表查询性能的功能。它会在 BigQuery 存储空间中存储表的元数据副本,从而减少在查询执行期间从 Cloud Storage 读取元数据文件的需求。

自动表维护

自动表维护功能可自动执行托管表的压缩和垃圾回收等任务,从而简化数据湖仓管理。这可确保获得最佳查询性能和存储效率,而无需人工干预。

互操作性概念

互操作性可实现跨 Google Cloud 和开源系统的数据访问。

目录联合

目录联合是 Iceberg REST 目录的一项功能,可用于管理和查询 BigQuery 可见的表,包括使用自定义 Iceberg 目录创建的表。

P.C.N.T 命名结构

P.C.N.T 命名结构是一种四部分命名惯例,用于从 BigQuery 中唯一标识和查询 BigLake metastore 中的表。它表示 Project.Catalog.Namespace.Table

  • 项目: Google Cloud 项目 ID
  • 目录:BigLake metastore 目录的名称
  • 命名空间:表的逻辑分组(类似于数据集)
  • :数据表的名称

安全概念

安全功能提供访问权限管理和数据保护机制。

连接

连接是一种 BigQuery 资源,用于存储访问外部数据的凭据。在 BigLake 中,连接通过允许连接的服务账号代表您访问存储桶来委托对 Cloud Storage 的访问权限。

凭证贩卖

凭据贩卖是一种安全机制,有助于在使用 Iceberg REST 目录时加强访问权限控制。启用后,BigLake 会生成短期、范围缩小的凭据,旨在仅授予对查询所需特定文件路径的访问权限,而不是将常规存储桶访问权限传递给 Compute Engine。这有助于防止用户绕过表级安全政策直接读取原始文件。

统一治理

通过与 Dataplex Universal Catalog 集成,您可以集中定义和强制执行安全和数据管理政策,从而实现统一治理。

可靠性概念

可靠性功能可提供数据弹性和目录可用性。

跨区域复制

跨区域复制功能可跨多个区域复制元数据,以确保在区域中断期间目录可用。

故障切换

故障切换是指在区域中断期间在主要区域和次要区域之间切换以维持目录运营的过程。