什麼是 BigLake?

BigLake 是一種儲存引擎,可整合 Google Cloud 和開放原始碼服務,為進階數據分析和 AI 建立統一介面。您可以使用 Apache Iceberg,以自動化資料管理和內建治理機制為基礎,建構開放式、代管式且高效能的湖倉。

BigLake 將儲存空間與運算資源分離,因此可與所有 Iceberg 相容引擎互通,例如 Apache Spark、Apache Flink、Apache Hive、Trino 或 BigQuery,確保資料檢視畫面一致。

主要優點

  • 無伺服器架構:BigLake 不需管理伺服器或叢集,可減少營運開銷,並根據需求自動調度資源。
  • 統一資料管理和治理:與 Dataplex Universal Catalog 整合,確保集中定義的治理政策在多個引擎中強制執行,同時提供語意搜尋、資料歷程和品質檢查功能。
  • 儲存空間擴充功能:BigLake 擴充了 Cloud Storage 的管理功能,納入自動調整級別和客戶自行管理的加密金鑰 (CMEK) 等功能。
  • 全代管體驗:與 BigQuery 整合時,BigLake 會使用高處理量串流和即時中繼資料管理功能,提供全代管的串流、分析和 AI 體驗。
  • 高可用性和災難復原:BigLake 提供跨區域複製和災難復原 (預先發布版) 選項,確保資料高可用性。

用途

  • 開放式 lakehouse:使用 Cloud Storage 做為儲存層,而 BigLake 則提供 Iceberg 資料的管理和控管介面。
  • 整合分析和交易:直接在 PostgreSQL 適用的 AlloyDB (預先發布版) 中存取 BigLake Iceberg 分析資料表,結合分析資料和交易工作負載。
  • 統一存取:讓不同引擎 (Spark、Flink、BigQuery) 與相同的 Iceberg 資料表互動,並使用一致的中繼資料。

目錄介面

BigLake metastore 提供兩個主要目錄介面,可連結 Cloud Storage 和 BigQuery 中的資料。詳情請參閱「BigLake 的運作方式」。

  • Apache Iceberg REST 目錄:提供標準 REST 介面,可與開放原始碼引擎和工具廣泛相容。建議您為新工作負載使用這個介面。

    如要瞭解如何開始使用這個 Apache Iceberg REST 目錄,請參閱快速入門導覽課程「使用 Iceberg REST 目錄搭配 Spark 和 BigQuery 運用 BigLake metastore」。

  • BigQuery 的自訂 Apache Iceberg 目錄:可讓 Spark 等引擎與 BigQuery 互通。現有工作負載支援這個介面。

介面和工具

您可以使用下列工具與 BigLake 資源互動:

  • Google Cloud 控制台:使用控制台建立目錄、查看目錄屬性、查看稽核記錄,以及設定權限。
  • BigQuery SQL:使用標準 SQL DDL (資料定義語言) 建立及管理 BigLake Iceberg 資料表。
  • 開放原始碼引擎:搭配 BigLake Metastore 使用 Apache Spark、Apache Flink 和 Apache Hive 等引擎,讀取及寫入資料。
  • BigLake metastore API:使用與 Iceberg REST 目錄規格相容的 REST API。

後續步驟