BigLake 資料表總覽

本文說明在 BigLake 上建構 Lakehouse 時可用的各種資料表格式,並協助您選擇符合需求的格式。

在 BigLake 上建構湖倉時,您可以選擇多種資料表格式,這些格式提供不同程度的管理、效能和互通性。選擇取決於資料來源、您要用於寫入和轉換的引擎,以及您對儲存空間和中繼資料的控管程度。

資料表格式

在 BigLake 上建構 lakehouse 時,您可以選擇下列資料表格式:

  • BigLake Iceberg 資料表是您從開放原始碼引擎建立,並儲存在 Cloud Storage 中的 Iceberg 資料表。與使用 BigLake metastore 的所有資料表一樣,開放原始碼引擎和 BigQuery 都能讀取這些資料表。不過,只有開放原始碼引擎可以寫入。如果您希望 ETL 工作流程由開放原始碼引擎管理,這個選項最適合您。
  • BigQuery 中的 BigLake Iceberg 資料表 是您從 BigQuery 建立並儲存在 Cloud Storage 中的 Iceberg 資料表。與使用 BigLake metastore 的所有資料表一樣,開放原始碼引擎和 BigQuery 都能讀取這些資料表。不過,只有 BigQuery 引擎可以直接寫入這些資料表。如果您希望 BigQuery 全面管理「擷取、轉換及載入」(ETL) 工作流程,這個選項最適合您。
  • 標準 BigQuery 資料表完全由 BigQuery 管理,並具備最先進的資料分析和管理功能。您仍可將這些表格連結至 BigLake Metastore。這個選項最適合非 Iceberg 表格。
  • 外部資料表是指 BigLake metastore 以外的資料表。這些資料表的資料和中繼資料完全由您自行管理,您完全依賴開放資料表格式 (例如 Iceberg、Apache Hudi 或 Delta Lake) 的功能。BigQuery 只能從這些資料表讀取資料。如要自行在第三方目錄中管理資料和中繼資料,請選擇這個選項。

請參閱下表,比較表格格式選項:

外部資料表 BigLake Iceberg 資料表 BigQuery 中的 BigLake Iceberg 資料表 標準 BigQuery 資料表
Metastore 外部或自行代管的 Metastore BigLake metastore BigLake metastore BigQuery
儲存空間 Cloud Storage / Amazon S3 / Azure Cloud Storage Cloud Storage BigQuery
儲存空間最佳化 由客戶或第三方管理 由客戶或第三方管理 Google 管理 Google 代管
讀取 / 寫入 開放原始碼引擎 (讀取/寫入)

BigQuery (僅限讀取)
開放原始碼引擎 (讀取/寫入)

BigQuery (僅限讀取)
開放原始碼引擎 (僅可使用 Iceberg 程式庫讀取,可透過 BigQuery Storage API 讀取/寫入)

BigQuery (讀取/寫入)

開放原始碼引擎 (可與 BigQuery Storage API 互通讀取/寫入)

BigQuery (讀取/寫入)

用途 BigQuery 載入作業的暫存資料表、僅供查詢的舊版資料表 開放式 lakehouse 開放式湖倉,提供高效能企業級儲存空間,適用於進階分析、串流和 AI 企業級儲存空間,適用於進階分析、串流和 AI