基本概念

本文定義 BigLake 的重要詞彙和概念。

本頁面並未列出所有功能,而是提供 BigLake 說明文件中使用的字詞和概念一般參考資料。

核心概念

下列概念是 BigLake 架構的基礎。

資料湖倉

資料湖倉是一種資料架構,結合了資料湖泊的成本效益和彈性,以及資料倉儲的資料管理和效能結構。BigLake 可讓您在 Cloud Storage 中以開放格式保留資料,同時使用 BigQuery 功能 (例如精細的安全性和高效能查詢),進而實現湖倉架構。

開放互通性

開放互通性是指 BigQuery、Spark 和 Flink 等多個分析和交易系統,能夠以 Apache Iceberg 等開放格式,對單一資料副本執行作業。這樣一來,您就不必重複輸入資料,而且可以確保不同工具中的資料檢視畫面一致。

BigLake Metastore

BigLake metastore 是集中式無伺服器中繼資料服務,可做為湖倉的單一事實來源。可讓 Spark、Flink 和 BigQuery 等多個引擎同時探索及查詢相同資料表。

目錄類型

BigLake Metastore 提供兩種不同類型的目錄,可供您管理中繼資料。選擇目錄是影響資料互動方式的基本決策。

Iceberg REST 目錄

這是以 Apache Iceberg REST 目錄規格為基礎的目錄。可讓開放原始碼引擎與 BigQuery 互通,並支援憑證販售和災難復原等功能。

BigQuery 的自訂 Iceberg 目錄

這項整合功能會直接使用 BigQuery 做為後端中繼資料存放區。

資料表格式

BigLake 支援多種資料表格式,具體取決於用於管理資料的引擎。

BigQuery 中的 BigLake Iceberg 資料表

這些是您從 BigQuery 建立並儲存在 Cloud Storage 中的 Iceberg 資料表。BigQuery 會處理所有資料版面配置和最佳化作業。雖然多個引擎都能讀取這些資料表,但只有 BigQuery 引擎可以直接寫入資料表。

BigLake Iceberg 資料表

這些是從開放原始碼引擎建立並儲存在 Cloud Storage 中的 Iceberg 資料表。BigLake metastore 可做為中央目錄。只有建立資料表的開放原始碼引擎,才能將資料寫入該資料表。

標準 BigQuery 資料表

這些資料表由 BigQuery 管理,並將資料儲存在 BigQuery 儲存空間中。您可以將這些表格連結至 BigLake Metastore。

外部資料表

外部資料表位於 BigLake Metastore 外部。資料和中繼資料會在第三方目錄中自行管理。BigQuery 只能從這些資料表讀取資料。

表格功能

BigLake 提供多項功能,可簡化資料管理作業,並提升 Iceberg 資料表的查詢效能。

表格演變

BigLake 支援 Iceberg 資料表演進功能,可讓您隨著時間變更資料表的結構定義或分區規格,不必重新編寫資料表資料或重新建立資料表。

時間回溯

時間回溯功能可讓您查詢特定時間點或快照 ID 的資料表資料。這項功能有助於稽核、重現實驗,或在誤刪資料後還原資料。

中繼資料快取

中繼資料快取功能可加快 BigLake 外部資料表的查詢效能。這項功能會在 BigQuery 儲存空間中儲存資料表中繼資料的副本,減少查詢執行期間從 Cloud Storage 讀取中繼資料檔案的需求。

自動維護表格

自動維護資料表功能會自動執行壓縮和垃圾收集等工作,簡化代管資料表的 lakehouse 管理作業。確保查詢效能和儲存效率達到最佳狀態,且無須手動介入。

互通性概念

互通性可讓您跨 Google Cloud 和開放原始碼系統存取資料。

目錄聯盟

目錄同盟是 Iceberg REST 目錄的功能,可管理及查詢 BigQuery 可見的資料表,包括使用自訂 Iceberg 目錄建立的資料表。

P.C.N.T 命名結構

P.C.N.T 命名結構是四部分慣例,用於從 BigQuery 唯一識別及查詢 BigLake 中繼存放區中的資料表。格式為 Project.Catalog.Namespace.Table

  • 專案: Google Cloud 專案 ID
  • 目錄:BigLake metastore 目錄的名稱
  • 命名空間:資料表的邏輯分組 (類似於資料集)
  • 資料表:資料表的名稱

安全性觀念

安全防護功能提供存取權管理和資料保護機制。

連線

連線是 BigQuery 資源,可儲存存取外部資料的憑證。在 BigLake 中,連線會將存取權委派給 Cloud Storage,讓連線的服務帳戶代表您存取儲存空間 bucket。

憑證販售

憑證販售是一種安全機制,可協助您在使用 Iceberg REST 目錄時,加強存取權控管。啟用後,BigLake 會產生存留時間短暫的範圍縮減憑證,只授予查詢所需的特定檔案路徑存取權,而不是將一般儲存空間存取權傳遞至 Compute Engine。這有助於防止使用者略過資料表層級的安全政策,直接讀取原始檔案。

統一管理

透過與 Dataplex Universal Catalog 整合,您可以集中定義及強制執行安全性和資料管理政策,實現統一治理。

可靠性概念

可靠性功能可確保資料復原能力和目錄可用性。

跨區域複製作業

跨區域複寫功能會在多個區域中複寫中繼資料,確保目錄在區域服務中斷期間仍可使用。

容錯移轉

容錯移轉是指在區域中斷期間,在主要和次要區域之間切換,以維持目錄作業的程序。