BigLake 是一種儲存引擎,可整合 Google Cloud 和開放原始碼服務,為進階數據分析和 AI 建立統一介面。您可以使用 Apache Iceberg,以自動化資料管理和內建治理機制為基礎,建構開放式、代管式且高效能的湖倉。
BigLake 可在所有與 Iceberg 相容的引擎 (例如 Apache Spark 或 BigQuery) 之間互通,讓您以一致的方式查看資料。此外,BigLake 也擴充了 Cloud Storage 的管理功能,包括儲存空間 bucket 的自動調整級別分層、加密和客戶自行管理的加密金鑰等功能。此外,內建的 Dataplex Universal Catalog 整合功能可確保集中定義治理政策,並在多個引擎中一致強制執行,同時提供語意搜尋、資料歷程、剖析和品質檢查功能。
與 BigQuery 整合後,BigLake 也提供全代管的 Iceberg 體驗。您可運用 BigQuery 高度可擴充的即時中繼資料管理功能,同時享有開放性、資料擁有權,以及高效能的分析、串流和 AI 作業。
架構
使用 BigLake 建構的資料湖倉包含下列元件:
- 儲存空間功能。Cloud Storage,並以 Apache Iceberg 做為建議的開放式資料表格式。
- 中繼資料存放區。BigLake metastore 是可擴充的統合式無伺服器代管 metastore,提供單一資料來源,可管理多個引擎的中繼資料。
- 查詢引擎。BigQuery、Apache Spark、Apache Flink、Trino 和其他開放原始碼引擎都與 BigLake 相容。
- 資料寫入和分析工具。BigQuery、Spark、Flink、Trino 和其他開放原始碼工具與 BigLake 整合,提供各種寫入和分析路徑。
BigLake 會將所有這些元件整合在單一體驗中,並提供一致的管理機制。如要進一步瞭解 BigLake 架構和創新功能,請參閱「BigLake 的演進」。
BigLake metastore
BigLake metastore 是全代管的無伺服器 metastore,適用於 Google Cloud上的湖倉。這項服務可為多個來源的中繼資料提供單一事實來源,並可透過 BigQuery 和各種開放資料處理引擎存取,因此您不必使用自訂工具,在不同存放區之間複製及同步處理中繼資料。
Dataplex Universal Catalog 支援 BigLake metastore,可為所有支援的引擎提供統一且精細的存取控管機制,並啟用端對端治理機制,包括完整的歷程、資料品質和探索功能。
資料表格式
在 BigLake 上建構 lakehouse 時,您可以選擇下列資料表格式:
- BigQuery 中的 BigLake Iceberg 資料表 是您從 BigQuery 建立並儲存在 Cloud Storage 中的 Iceberg 資料表。與使用 BigLake metastore 的所有資料表一樣,開放原始碼引擎和 BigQuery 都能讀取這些資料表。不過,只有 BigQuery 引擎可以直接寫入這些資料表。如果您希望 BigQuery 全面代管擷取、轉換及載入 (ETL) 工作流程,這個選項最適合您。
- BigLake Iceberg 資料表是您從開放原始碼引擎建立,並儲存在 Cloud Storage 中的 Iceberg 資料表。與使用 BigLake metastore 的所有資料表一樣,開放原始碼引擎和 BigQuery 都能讀取這些資料表。不過,只有建立資料表的開放原始碼引擎可以寫入資料。如果您希望 ETL 工作流程由開放原始碼引擎管理,這個選項最適合您。
- 標準 BigQuery 資料表完全由 BigQuery 管理,並具備最先進的資料分析和管理功能。您仍可將這些表格連結至 BigLake Metastore。這個選項最適合非 Iceberg 表格。
- 外部資料表是指 BigLake metastore 以外的資料表。這些資料表的資料和中繼資料完全由您自行管理,您完全依賴開放資料表格式 (例如 Iceberg、Apache Hudi 或 Delta Lake) 的功能。BigQuery 只能從這些資料表讀取資料。如要自行在第三方目錄中管理資料和中繼資料,請選擇這個選項。
請參閱下表,比較表格格式選項:
| 外部資料表 | BigLake Iceberg 資料表 | BigQuery 中的 BigLake Iceberg 資料表 | 標準 BigQuery 資料表 | |
|---|---|---|---|---|
| Metastore | 外部或自行代管的 Metastore | BigLake metastore | BigLake metastore | BigQuery |
| 儲存空間 | Cloud Storage / Amazon S3 / Azure | Cloud Storage | Cloud Storage | BigQuery |
| 儲存空間最佳化 | 由客戶或第三方管理 | 由客戶或第三方管理 | Google 管理 | Google 代管 |
| 讀取 / 寫入 |
開放原始碼引擎 (讀取/寫入) BigQuery (僅限讀取) |
開放原始碼引擎 (讀取/寫入) BigQuery (僅限讀取) |
開放原始碼引擎 (僅可使用 Iceberg 程式庫讀取,可透過 BigQuery Storage API 讀取/寫入) BigQuery (讀取/寫入) |
開放原始碼引擎 (可與 BigQuery Storage API 互通讀取/寫入) BigQuery (讀取/寫入) |
| 用途 | BigQuery 載入作業的暫存資料表、僅供查詢的舊版資料表 | 開放式 lakehouse | 開放式湖倉,提供高效能企業級儲存空間,適用於進階分析、串流和 AI | 企業級儲存空間,適用於進階分析、串流和 AI |
後續步驟
- 進一步瞭解 BigLake metastore。