本文定義 Lakehouse for Apache Iceberg 的重要詞彙和概念。
本頁面並非詳盡的功能清單,而是 Google Cloud Lakehouse 說明文件中使用的術語和概念一般參考資料。
核心概念
下列概念是 Google Cloud Lakehouse 架構的基礎。
資料湖倉
資料湖倉結合了資料湖泊的成本效益和彈性,以及資料倉儲的資料管理和效能。您可以在 Cloud Storage 中以開放格式儲存資料,並使用 BigQuery 功能,例如精確的安全控管和快速查詢。
開放互通性
開放互通性是指多個分析和交易系統 (例如 BigQuery、Apache Spark 和 Apache Flink) 能夠以 Apache Iceberg 等開放格式,對單一資料副本執行作業。這樣一來,就不必重複處理資料,並確保不同工具中的資料檢視畫面一致。
Lakehouse 執行階段目錄
Lakehouse 執行階段目錄是集中式無伺服器中繼資料服務,可做為 Google Cloud Lakehouse 的單一事實來源。可讓 Apache Spark、Apache Flink 和 BigQuery 等多個引擎同時探索及查詢相同資料表。
目錄類型
Lakehouse 執行階段目錄提供不同類型的目錄,方便您管理中繼資料。
Apache Iceberg REST 目錄端點
這是以 Apache Iceberg REST 目錄端點為基礎的目錄。可讓開放原始碼引擎與 BigQuery 互通,並支援憑證販售和災難復原等功能。
BigQuery 的自訂 Apache Iceberg 目錄
這項整合功能會直接使用 BigQuery 目錄,做為受管理 Apache Iceberg 資料表的後端中繼資料服務。
Apache Hive 目錄端點
這個端點可與依附於 Apache Hive 中繼存放區 (HMS) 介面的開放原始碼工作負載相容,讓您在Google Cloud上針對全代管中繼存放區服務執行 Apache Hive 或 Spark 工作負載。
資料表類型
Google Cloud 的 Lakehouse 支援多種資料表格式,具體取決於用於管理資料的引擎,以及您使用的目錄端點。
Apache Iceberg 資料表
這些是您從開放原始碼引擎建立並儲存在 Cloud Storage 中的 Apache Iceberg 資料表。Lakehouse 執行階段目錄會透過 Apache Iceberg REST 目錄端點管理這些資料表。開放原始碼引擎可讀取及寫入這些資料表,而 BigQuery 只能讀取。如果您希望 ETL 工作流程由開放原始碼引擎管理,建議使用這個選項。
BigQuery 資料表
這些資料表由 BigQuery 管理。
Apache Iceberg 資料表
這些是您從 BigQuery 建立並儲存在 Cloud Storage 中的 Apache Iceberg 資料表。BigQuery 會處理所有資料版面配置和最佳化作業。雖然多個引擎都能讀取這些資料表,但只有 BigQuery 引擎可以直接寫入。
原生資料表
這些資料表由 BigQuery 管理,並將資料儲存在 BigQuery 儲存空間中。您可以將這些表格連結至 Lakehouse 執行階段目錄。
外部資料表
外部資料表位於 Lakehouse 執行階段目錄之外。資料和中繼資料會在第三方目錄 (例如 Cloud Storage、S3 或 Azure Blob Storage) 中自行管理。BigQuery 只能從這些資料表讀取資料。
表格功能
表格演變
Google Cloud 的 Lakehouse 支援 Apache Iceberg 資料表演進,可讓您隨著時間變更資料表的結構定義或分區規格,不必重新編寫資料表資料或重新建立資料表。
時間回溯
時間回溯功能可讓您查詢特定時間點或快照 ID 的資料表資料。這項功能有助於稽核、重現實驗,或在誤刪後還原資料。
中繼資料快取
中繼資料快取功能可加快外部資料表的查詢效能。這項功能會在 BigQuery 儲存空間中儲存資料表的中繼資料副本,減少查詢執行期間從 Cloud Storage 讀取中繼資料檔案的需求。
Google Cloud 的 Lakehouse 資料表管理
Google Cloud 的 Lakehouse 資料表管理功能會自動執行壓縮和垃圾回收等工作,簡化代管資料表的 Lakehouse 維護作業。確保查詢效能和儲存效率達到最佳狀態。
互通性概念
BigQuery 目錄聯盟
透過 BigQuery 目錄同盟,您可以使用 Lakehouse 執行階段目錄 Apache Iceberg REST 目錄端點,將 BigQuery 管理的資料表 (例如 Iceberg 管理的資料表) 曝光給外部開放原始碼 (OSS) 引擎,例如 Apache Spark 和 Trino。
Apache Iceberg REST 目錄端點不會建立專屬的 Lakehouse 目錄容器來儲存中繼資料,而是純粹做為 Proxy 閘道,直接將目錄要求路由至 BigQuery 的內部目錄。您可以使用標準 BigQuery DDL 或 API,直接在 BigQuery 中建立及管理資料表,同時透過 REST 目錄端點,授予外部 OSS 引擎唯讀存取權,查詢這些資料表。
跨雲端 Lakehouse
跨雲端 Lakehouse 可擴充 Google Cloud 的 Lakehouse,讓您連線至遠端外部目錄 (例如 Databricks Unity Catalog 或 AWS Glue)。這項服務會同步處理其他雲端供應商的 Metadata,讓您透過 Apache Iceberg REST 目錄端點,使用 BigQuery 或外部開放原始碼引擎查詢資料,不必遷移資料。
公開資料集
Google Cloud 的 Lakehouse 透過 Apache Iceberg REST 目錄提供高品質的公開資料集,讓您享有唯讀存取權,可進行探索和測試,不必管理基礎架構。
P.C.N.T. 命名結構
P.C.N.T. 命名結構是四部分慣例,用於從 BigQuery 查詢 Lakehouse 執行階段目錄中的資料表,並以專屬方式識別資料表。代表 Project.Catalog.Namespace.Table:
- 專案:專案 ID。 Google Cloud
- 目錄:Lakehouse 執行階段目錄的名稱。
- 命名空間:資料表的邏輯分組 (類似於資料集)。
- 資料表:資料表的名稱。
安全性觀念
連線
連線是 BigQuery 資源,可儲存存取外部資料的憑證。在 Google Cloud 的 Lakehouse 中,連線會委派 Cloud Storage 的存取權,讓連線的服務帳戶代您存取儲存空間 bucket。
憑證販售
使用 Lakehouse 執行階段目錄時,憑證販售機制有助於加強存取控管。啟用後,這項服務會產生短期憑證,並縮減憑證範圍,只授予查詢所需的特定檔案路徑存取權。
統合治理
透過與 Knowledge Catalog 整合,統一管理功能可讓您集中定義及強制執行安全性和資料管理政策。
可靠性概念
跨區域複製作業
跨區域複寫功能會在多個區域複寫中繼資料,確保區域服務中斷時目錄仍可使用。
容錯移轉
容錯移轉是指在區域服務中斷期間,在主要和次要區域之間切換,以維持目錄作業的程序。