基本概念

本文定義 BigLake 的重要詞彙和概念。

核心概念

下列概念是 BigLake 架構的基礎。

資料湖倉

資料湖倉是一種資料架構,結合了資料湖泊的成本效益和彈性,以及資料倉儲的資料管理和效能結構。BigLake 可讓您在 Cloud Storage 中以開放格式保留資料,同時使用 BigQuery 功能 (例如精細的安全性和高效能查詢),進而實現湖倉架構。詳情請參閱「BigLake 的運作方式」。

開放互通性

開放互通性是指 BigQuery、Spark 和 Flink 等多個分析和交易系統,能夠以 Apache Iceberg 等開放格式,對單一資料副本執行作業。這樣一來,您就不必重複輸入資料,而且可確保不同工具中的資料檢視畫面一致。詳情請參閱「BigLake 的運作方式」。

BigLake Metastore

BigLake metastore 是集中式無伺服器中繼資料服務,可做為湖倉的單一事實來源。可讓 Spark、Flink 和 BigQuery 等多個引擎同時探索及查詢相同資料表。詳情請參閱「關於 BigLake Metastore」。

目錄類型

BigLake Metastore 提供兩種不同類型的目錄,可供您管理中繼資料。選擇目錄是影響資料互動方式的基本決策。

Iceberg REST 目錄

這是以 Apache Iceberg REST 目錄規格為基礎的目錄。可與開放原始碼引擎和 BigQuery 互通,並支援憑證販售和災難復原等功能。詳情請參閱「Apache Iceberg REST 目錄概念」。

BigQuery 的自訂 Iceberg 目錄

這項整合功能會直接使用 BigQuery 做為後端中繼存放區。詳情請參閱「透過 BigQuery 進行目錄同盟」。

資料表格式

BigLake 支援多種資料表格式,具體取決於用於管理資料的引擎。

BigLake Iceberg 資料表

這些是從開放原始碼引擎建立並儲存在 Cloud Storage 中的 Iceberg 資料表。BigLake metastore 可做為中央目錄。只有建立資料表的開放原始碼引擎可以寫入資料。詳情請參閱「Apache Iceberg 專用 BigLake Iceberg 資料表簡介」。

BigQuery 中的 BigLake Iceberg 資料表

這些是您從 BigQuery 建立並儲存在 Cloud Storage 中的 Iceberg 資料表。BigQuery 會處理所有資料版面配置和最佳化作業。雖然多個引擎都能讀取這些資料表,但只有 BigQuery 引擎可以直接寫入資料表。詳情請參閱「在 BigQuery 中管理 BigLake Iceberg 資料表」。

標準 BigQuery 資料表

這些資料表由 BigQuery 管理,並將資料儲存在 BigQuery 儲存空間中。您可以將這些表格連結至 BigLake Metastore。詳情請參閱 BigLake 資料表總覽

外部資料表

外部資料表位於 BigLake metastore 外部。資料和中繼資料會在第三方目錄中自行管理。BigQuery 只能從這些資料表讀取資料。詳情請參閱 BigLake 資料表總覽

表格功能

BigLake 提供多項功能,可簡化資料管理作業,並提升 Iceberg 資料表的查詢效能。

表格演變

BigLake 支援 Iceberg 資料表演進,可讓您隨著時間變更資料表的結構定義或分區規格,不必重新編寫資料表資料或重新建立資料表。詳情請參閱「其他 BigLake 中繼資料存放區功能」。

時間回溯

時間回溯功能可讓您查詢特定時間點或快照 ID 的資料表資料。這項功能有助於稽核、重現實驗,或在誤刪後還原資料。詳情請參閱「其他 BigLake 中繼資料存放區功能」。

中繼資料快取

中繼資料快取功能可加快 BigLake 外部資料表的查詢效能。這項功能會在 BigQuery 儲存空間中儲存資料表的中繼資料副本,減少查詢執行期間從 Cloud Storage 讀取中繼資料檔案的需求。詳情請參閱 BigLake 資料表總覽

自動維護表格

自動執行資料表維護作業,可簡化 Lakehouse 管理作業,例如自動壓縮及垃圾回收代管資料表。這樣一來,系統就能確保查詢效能和儲存效率達到最佳狀態,無須手動介入。詳情請參閱「其他 BigLake 中繼資料存放區功能」。

互通性概念

互通性可讓您跨 Google Cloud 和開放原始碼系統存取資料。

目錄聯盟

目錄聯盟是 Iceberg REST 目錄的功能,可管理及查詢 BigQuery 可見的資料表,包括使用自訂 Iceberg 目錄建立的資料表。詳情請參閱「透過 BigQuery 進行目錄同盟」。

P.C.N.T 命名結構

P.C.N.T 命名結構是四部分慣例,用於從 BigQuery 唯一識別及查詢 BigLake 中繼存放區中的資料表。代表 Project.Catalog.Namespace.Table

  • 專案: Google Cloud 專案 ID
  • 目錄:BigLake metastore 目錄的名稱
  • 命名空間:資料表的邏輯分組 (類似於資料集)
  • 資料表:資料表的名稱

詳情請參閱「查詢目錄」。

安全性觀念

安全防護功能提供存取權管理和資料保護機制。

連線

連線是 BigQuery 資源,可儲存存取外部資料的憑證。在 BigLake 中,連線會將存取權委派給 Cloud Storage,讓連線的服務帳戶代您存取儲存空間 bucket。詳情請參閱「使用 BigQuery 進行驗證」。

憑證販售

憑證販售是一種安全機制,可協助您在使用 Iceberg REST 目錄時,加強存取控管。啟用後,BigLake 會產生存留時間較短的範圍縮減憑證,只授予查詢所需的特定檔案路徑存取權,而不是將一般儲存空間存取權傳遞至 Compute Engine。這有助於防止使用者略過資料表層級的安全防護政策,直接讀取原始檔案。詳情請參閱「關於憑證臨時配發」。

統一管理

透過與 Knowledge Catalog 整合,統一管理功能可讓您集中定義及強制執行安全性和資料管理政策。詳情請參閱「IAM 和存取控管」。

可靠性概念

可靠性功能可確保資料復原能力和目錄可用性。

跨區域複製作業

跨區域複寫功能會在多個區域中複寫中繼資料,確保目錄在區域服務中斷期間仍可使用。詳情請參閱「關於受管理災難復原」。

容錯移轉

容錯移轉是指在區域服務中斷期間,在主要和次要區域之間切換,以維持目錄作業的程序。詳情請參閱「關於受管理災難復原」。