湖倉資料表格式總覽

本文說明在 Google Cloud 上建構資料湖屋時可用的各種表格格式,並協助您選擇適合需求的格式。

使用 Google Cloud Lakehouse 建立 Lakehouse 時,您可以選擇多種資料表格式,這些格式提供不同程度的管理、效能和互通性。選擇取決於資料來源、您要用於寫入和轉換的引擎,以及您對儲存空間和中繼資料的控管程度。

資料表格式

建構 Google Cloud Lakehouse 時,您可以選擇下列資料表格式,並依據管理資料表的目錄分類:

Lakehouse 執行階段目錄資料表

建議

Lakehouse 執行階段目錄支援 Apache Iceberg 資料表的開放式相容性和管理。

  • Lakehouse Iceberg REST 目錄資料表:這是您從開放原始碼引擎建立並儲存在 Cloud Storage 中的 Apache Iceberg 資料表。可與 BigQuery 和相容於 Iceberg 的引擎互通,並提供開放式相容性。如果您希望 ETL 工作流程由開放原始碼引擎管理,建議使用這個選項。

BigQuery 目錄資料表

BigQuery 目錄會管理原生資料表、Apache Iceberg 資料表和外部資料表。

  • Apache Iceberg 資料表:這類資料表由您透過 BigQuery 建立及管理,並儲存在 Cloud Storage 中。開放原始碼引擎可以讀取這些中繼資料,但 BigQuery 是管理中繼資料並將資料寫入其中的引擎。如果您希望工作流程完全由 BigQuery 全代管,建議選取這個選項。

  • 原生資料表:這些是原生 BigQuery 資料表。這類服務是全代管服務,並提供最先進的分析和管理功能。這個選項最適合非 Iceberg 工作負載。

  • 外部資料表:這些資料表是 BigQuery 專用的建構項目,適用於儲存在 Cloud Storage、Amazon S3 或 Azure Blob 儲存體中的資料。資料和中繼資料由您自行管理,BigQuery 只有讀取權限。如果想直接在第三方目錄或儲存空間中管理資料,請選擇這個選項。

請參閱下表,比較表格格式選項:

外部資料表 Lakehouse Iceberg REST 目錄資料表 Apache Iceberg 資料表 標準 BigQuery 資料表
Metastore 外部或自行代管的中繼存放區 Lakehouse 執行階段目錄 BigQuery 目錄 BigQuery 目錄
儲存空間 Cloud Storage / Amazon S3 / Azure Cloud Storage Cloud Storage BigQuery
儲存空間最佳化 由客戶或第三方管理 由客戶或第三方管理 Google 代管 Google 代管
讀取 / 寫入 開放原始碼引擎 (讀取/寫入)

BigQuery (僅限讀取)
開放原始碼引擎 (讀取/寫入)

BigQuery (僅限讀取)
開放原始碼引擎 (僅能使用 Iceberg 程式庫讀取,可透過 BigQuery Storage API 讀取/寫入)

BigQuery (讀取/寫入)

開放原始碼引擎 (可與 BigQuery Storage API 互通讀取/寫入)

BigQuery (讀取/寫入)

用途 BigQuery 載入作業的暫存資料表、僅供查詢的舊版資料表 開放式 lakehouse 開放式湖倉,提供高效能企業級儲存空間,適用於進階分析、串流和 AI 企業級儲存空間,適用於進階分析、串流和 AI