本文說明在 Google Cloud 上建構資料湖屋時可用的各種表格格式,並協助您選擇適合需求的格式。
使用 Google Cloud Lakehouse 建立 Lakehouse 時,您可以選擇多種資料表格式,這些格式提供不同程度的管理、效能和互通性。選擇取決於資料來源、您要用於寫入和轉換的引擎,以及您對儲存空間和中繼資料的控管程度。
資料表格式
建構 Google Cloud Lakehouse 時,您可以選擇下列資料表格式,並依據管理資料表的目錄分類:
Lakehouse 執行階段目錄資料表
建議
Lakehouse 執行階段目錄支援 Apache Iceberg 資料表的開放式相容性和管理。
- Lakehouse Iceberg REST 目錄資料表:這是您從開放原始碼引擎建立並儲存在 Cloud Storage 中的 Apache Iceberg 資料表。可與 BigQuery 和相容於 Iceberg 的引擎互通,並提供開放式相容性。如果您希望 ETL 工作流程由開放原始碼引擎管理,建議使用這個選項。
BigQuery 目錄資料表
BigQuery 目錄會管理原生資料表、Apache Iceberg 資料表和外部資料表。
Apache Iceberg 資料表:這類資料表由您透過 BigQuery 建立及管理,並儲存在 Cloud Storage 中。開放原始碼引擎可以讀取這些中繼資料,但 BigQuery 是管理中繼資料並將資料寫入其中的引擎。如果您希望工作流程完全由 BigQuery 全代管,建議選取這個選項。
原生資料表:這些是原生 BigQuery 資料表。這類服務是全代管服務,並提供最先進的分析和管理功能。這個選項最適合非 Iceberg 工作負載。
外部資料表:這些資料表是 BigQuery 專用的建構項目,適用於儲存在 Cloud Storage、Amazon S3 或 Azure Blob 儲存體中的資料。資料和中繼資料由您自行管理,BigQuery 只有讀取權限。如果想直接在第三方目錄或儲存空間中管理資料,請選擇這個選項。
請參閱下表,比較表格格式選項:
| 外部資料表 | Lakehouse Iceberg REST 目錄資料表 | Apache Iceberg 資料表 | 標準 BigQuery 資料表 | |
|---|---|---|---|---|
| Metastore | 外部或自行代管的中繼存放區 | Lakehouse 執行階段目錄 | BigQuery 目錄 | BigQuery 目錄 |
| 儲存空間 | Cloud Storage / Amazon S3 / Azure | Cloud Storage | Cloud Storage | BigQuery |
| 儲存空間最佳化 | 由客戶或第三方管理 | 由客戶或第三方管理 | Google 代管 | Google 代管 |
| 讀取 / 寫入 |
開放原始碼引擎 (讀取/寫入) BigQuery (僅限讀取) |
開放原始碼引擎 (讀取/寫入) BigQuery (僅限讀取) |
開放原始碼引擎 (僅能使用 Iceberg 程式庫讀取,可透過 BigQuery Storage API 讀取/寫入) BigQuery (讀取/寫入) |
開放原始碼引擎 (可與 BigQuery Storage API 互通讀取/寫入) BigQuery (讀取/寫入) |
| 用途 | BigQuery 載入作業的暫存資料表、僅供查詢的舊版資料表 | 開放式 lakehouse | 開放式湖倉,提供高效能企業級儲存空間,適用於進階分析、串流和 AI | 企業級儲存空間,適用於進階分析、串流和 AI |