本文說明在 BigLake 上建構 Lakehouse 時可用的各種資料表格式,並協助您選擇符合需求的格式。
在 BigLake 上建構湖倉時,您可以選擇多種資料表格式,這些格式提供不同程度的管理、效能和互通性。選擇取決於資料來源、您要用於寫入和轉換的引擎,以及您對儲存空間和中繼資料的控管程度。
資料表格式
在 BigLake 上建構 lakehouse 時,您可以選擇下列資料表格式:
- BigLake Iceberg 資料表是您從開放原始碼引擎建立,並儲存在 Cloud Storage 中的 Iceberg 資料表。與使用 BigLake metastore 的所有資料表一樣,開放原始碼引擎和 BigQuery 都能讀取這些資料表。不過,只有開放原始碼引擎可以寫入。如果您希望 ETL 工作流程由開放原始碼引擎管理,這個選項最適合您。
- BigQuery 中的 BigLake Iceberg 資料表 是您從 BigQuery 建立並儲存在 Cloud Storage 中的 Iceberg 資料表。與使用 BigLake metastore 的所有資料表一樣,開放原始碼引擎和 BigQuery 都能讀取這些資料表。不過,只有 BigQuery 引擎可以直接寫入這些資料表。如果您希望 BigQuery 全面管理「擷取、轉換及載入」(ETL) 工作流程,這個選項最適合您。
- 標準 BigQuery 資料表完全由 BigQuery 管理,並具備最先進的資料分析和管理功能。您仍可將這些表格連結至 BigLake Metastore。這個選項最適合非 Iceberg 表格。
- 外部資料表是指 BigLake metastore 以外的資料表。這些資料表的資料和中繼資料完全由您自行管理,您完全依賴開放資料表格式 (例如 Iceberg、Apache Hudi 或 Delta Lake) 的功能。BigQuery 只能從這些資料表讀取資料。如要自行在第三方目錄中管理資料和中繼資料,請選擇這個選項。
請參閱下表,比較表格格式選項:
| 外部資料表 | BigLake Iceberg 資料表 | BigQuery 中的 BigLake Iceberg 資料表 | 標準 BigQuery 資料表 | |
|---|---|---|---|---|
| Metastore | 外部或自行代管的 Metastore | BigLake metastore | BigLake metastore | BigQuery |
| 儲存空間 | Cloud Storage / Amazon S3 / Azure | Cloud Storage | Cloud Storage | BigQuery |
| 儲存空間最佳化 | 由客戶或第三方管理 | 由客戶或第三方管理 | Google 管理 | Google 代管 |
| 讀取 / 寫入 |
開放原始碼引擎 (讀取/寫入) BigQuery (僅限讀取) |
開放原始碼引擎 (讀取/寫入) BigQuery (僅限讀取) |
開放原始碼引擎 (僅可使用 Iceberg 程式庫讀取,可透過 BigQuery Storage API 讀取/寫入) BigQuery (讀取/寫入) |
開放原始碼引擎 (可與 BigQuery Storage API 互通讀取/寫入) BigQuery (讀取/寫入) |
| 用途 | BigQuery 載入作業的暫存資料表、僅供查詢的舊版資料表 | 開放式 lakehouse | 開放式湖倉,提供高效能企業級儲存空間,適用於進階分析、串流和 AI | 企業級儲存空間,適用於進階分析、串流和 AI |