BigLake の概要

BigLake は、 Google Cloud とオープンソース サービスを統合して、高度な分析と AI のための統合インターフェースを作成するストレージ エンジンです。Apache Iceberg を使用して、自動化されたデータ マネジメントと組み込みのガバナンスを備えたオープンでマネージドな高パフォーマンスのレイクハウスを構築するために必要な基盤を提供します。

BigLake を使用すると、Apache Spark や BigQuery などの Iceberg 互換エンジン間で相互運用が可能になり、データの一貫したビューが提供されます。また、ストレージ バケットの自動クラス階層化、暗号化、顧客管理の暗号鍵などの機能を含む Cloud Storage の管理機能も拡張されます。また、Dataplex Universal Catalog との組み込み統合により、ガバナンス ポリシーを一元的に定義し、複数のエンジン間で一貫して適用できます。さらに、セマンティック検索、データリネージ、プロファイリング、品質チェックを行うこともできます。

BigLake は、BigQuery と統合された場合に、フルマネージド Iceberg エクスペリエンスのオプションも提供します。BigQuery の高度にスケーラブルなリアルタイム メタデータ管理機能を活用することで、オープン性とデータ所有権、高性能な分析、ストリーミング、AI の両方のメリットを享受できます。

アーキテクチャ

BigLake で構築されたデータ レイクハウスは、次のコンポーネントで構成されています。

  • ストレージ機能。推奨されるオープン テーブル形式として Apache Iceberg を使用する Cloud Storage。
  • メタストア。BigLake metastore は、複数のエンジンにわたるメタデータを管理するための信頼できる唯一の情報源を提供する、統合されたマネージド サーバーレスのスケーラブルなメタストアです。
  • クエリエンジン。BigQuery、Apache Spark、Apache Flink、Trino などのオープンソース エンジンはすべて BigLake と互換性があります。
  • データの書き込みと分析を行うツール。BigQuery、Spark、Flink、Trino などのオープンソース ツールは BigLake と統合され、書き込みと分析のためのさまざまなパスを提供します。

BigLake は、これらのコンポーネントをすべて、統一されたガバナンスを備えた単一のエクスペリエンスにパッケージ化します。BigLake のアーキテクチャとイノベーションの詳細については、BigLake の進化をご覧ください。

BigLake Metastore

BigLake Metastore は、 Google Cloud上のレイクハウス用のフルマネージドのサーバーレス メタストアです。複数のソースのメタデータの信頼できる唯一の情報源となり、BigQuery やさまざまなオープンデータ処理エンジンからアクセスできるため、カスタマイズされたツールを使用して異なるリポジトリ間でメタデータをコピーして同期する必要がなくなります。

BigLake metastore は Dataplex Universal Catalog でサポートされています。これにより、サポートされているすべてのエンジンで統一されたきめ細かいアクセス制御が可能になり、包括的なリネージ、データ品質、検出可能性の機能を含むエンドツーエンドのガバナンスが実現します。

テーブル形式

BigLake でレイクハウスを構築する場合、テーブルの形式として次のいずれかを選択できます。

  • BigQuery の BigLake Iceberg テーブルは、BigQuery から作成して Cloud Storage に保存する Iceberg テーブルです。BigLake metastore を使用するすべてのテーブルと同様、オープンソース エンジンと BigQuery で読み取れます。ただし、BigQuery はこれらのテーブルに直接書き込むことができる唯一のエンジンです。抽出、変換、読み込み(ETL)ワークフローを BigQuery で完全に管理する場合は、このオプションが最適です。
  • BigLake Iceberg テーブルは、オープンソース エンジンから作成して Cloud Storage に保存する Iceberg テーブルです。BigLake metastore を使用するすべてのテーブルと同様、オープンソース エンジンと BigQuery で読み取れます。ただし、テーブルを作成したオープンソース エンジンのみが、テーブルに書き込むことができます。ETL ワークフローをオープンソース エンジンで管理する場合は、このオプションをおすすめします。
  • 標準の BigQuery テーブルは BigQuery によってフルマネージドされ、最先端のデータ分析機能と管理機能が備わっています。これらのテーブルは BigLake metastore に接続できます。このオプションは、Iceberg 以外のテーブルに最適です。
  • 外部テーブルは、BigLake メタストアの外部にあるテーブルです。これらのテーブルのデータとメタデータは完全にセルフマネージドであり、オープン テーブル形式(Iceberg、Apache Hudi、Delta Lake など)の機能に完全に依存します。BigQuery はこれらのテーブルから読み取るだけです。サードパーティ カタログで独自に管理するデータとメタデータには、このオプションを選択します。

次の表で、表の形式のオプションを比較してください。

外部テーブル BigLake Iceberg テーブル BigQuery の BigLake Iceberg テーブル 標準の BigQuery テーブル
メタストア 外部またはセルフホストのメタストア BigLake Metastore BigLake Metastore BigQuery
ストレージ Cloud Storage / Amazon S3 / Azure Cloud Storage Cloud Storage BigQuery
ストレージの最適化 お客様または第三者による管理 お客様または第三者による管理 Google が管理 Google が管理
読み取り / 書き込み オープンソース エンジン(読み取り/書き込み)

BigQuery(読み取り専用)
オープンソース エンジン(読み取り/書き込み)

BigQuery(読み取り専用)
オープンソース エンジン(Iceberg ライブラリでの読み取り専用、BigQuery Storage API との読み取り/書き込みの相互運用性)

BigQuery(読み取り/書き込み)

オープンソース エンジン(BigQuery Storage API との読み取り/書き込みの相互運用性)

BigQuery(読み取り/書き込み)

ユースケース BigQuery ロード用のステージング テーブル、クエリ専用のレガシー テーブル オープン レイクハウス 高度な分析、ストリーミング、AI 向けのハイパフォーマンスなエンタープライズ グレードのストレージを備えたオープン レイクハウス 高度な分析、ストリーミング、AI 向けのエンタープライズ グレードのストレージ

次のステップ