このドキュメントでは、BigLake でレイクハウスを構築する際に使用できるさまざまなテーブル形式について説明し、ニーズに合った形式を選択できるようにします。
BigLake でレイクハウスを構築する場合は、さまざまなレベルの管理、パフォーマンス、相互運用性を提供する複数のテーブル形式から選択できます。選択は、データの発生元、書き込みと変換に使用するエンジン、ストレージとメタデータの制御の必要性によって異なります。
テーブル形式
BigLake でレイクハウスを構築する場合、テーブルの形式として次のいずれかを選択できます。
- BigLake Iceberg テーブルは、オープンソース エンジンから作成して Cloud Storage に保存する Iceberg テーブルです。BigLake metastore を使用するすべてのテーブルと同様、オープンソース エンジンと BigQuery で読み取れます。ただし、書き込みができるのはオープンソース エンジンのみです。ETL ワークフローをオープンソース エンジンで管理する場合は、このオプションが最適です。
- BigQuery の BigLake Iceberg テーブルは、BigQuery から作成して Cloud Storage に保存する Iceberg テーブルです。BigLake metastore を使用するすべてのテーブルと同様、オープンソース エンジンと BigQuery で読み取れます。ただし、BigQuery はこれらのテーブルに直接書き込むことができる唯一のエンジンです。このオプションは、抽出、変換、読み込み(ETL)ワークフローを BigQuery で完全に管理する場合に最適です。
- 標準の BigQuery テーブルは BigQuery によってフルマネージドされ、最先端のデータ分析機能と管理機能が備わっています。これらのテーブルは BigLake metastore に接続できます。このオプションは、Iceberg 以外のテーブルに最適です。
- 外部テーブルは、BigLake メタストアの外部にあるテーブルです。これらのテーブルのデータとメタデータは完全にセルフマネージドであり、オープン テーブル形式(Iceberg、Apache Hudi、Delta Lake など)の機能に完全に依存します。BigQuery はこれらのテーブルから読み取るだけです。サードパーティ カタログで独自に管理するデータとメタデータには、このオプションを選択します。
次の表で、表の形式のオプションを比較してください。
| 外部テーブル | BigLake Iceberg テーブル | BigQuery の BigLake Iceberg テーブル | 標準の BigQuery テーブル | |
|---|---|---|---|---|
| メタストア | 外部またはセルフホストのメタストア | BigLake Metastore | BigLake Metastore | BigQuery |
| ストレージ | Cloud Storage / Amazon S3 / Azure | Cloud Storage | Cloud Storage | BigQuery |
| ストレージの最適化 | お客様または第三者による管理 | お客様または第三者による管理 | Google が管理 | Google が管理 |
| 読み取り / 書き込み |
オープンソース エンジン(読み取り/書き込み) BigQuery(読み取り専用) |
オープンソース エンジン(読み取り/書き込み) BigQuery(読み取り専用) |
オープンソース エンジン(Iceberg ライブラリでの読み取り専用、BigQuery Storage API との読み取り/書き込みの相互運用性) BigQuery(読み取り/書き込み) |
オープンソース エンジン(BigQuery Storage API との読み取り/書き込みの相互運用性) BigQuery(読み取り/書き込み) |
| ユースケース | BigQuery ロード用のステージング テーブル、クエリ専用のレガシー テーブル | オープン レイクハウス | 高度な分析、ストリーミング、AI 向けのハイパフォーマンスなエンタープライズ グレードのストレージを備えたオープン レイクハウス | 高度な分析、ストリーミング、AI 向けのエンタープライズ グレードのストレージ |