レイクハウスに最適なデータ形式とメタデータ形式

このドキュメントでは、BigLake でデータ レイクハウスを設計する際の最適なデータ形式とメタデータ形式について説明します。

データ レイクハウスは、データ ウェアハウスの構造とデータレイクの元データの柔軟性を組み合わせたデータ アーキテクチャです。このアーキテクチャは、幅広いデータ ユースケースに柔軟性とスケーラビリティを提供します。Google Cloud データレイクハウス ソリューションは BigLake と呼ばれ、 Google Cloud とオープンソース サービスを接続して、分析と AI のための統合インターフェースを作成します。BigLake で構築されたデータ レイクハウスは、次の主要コンポーネントで構成されています。

  • ストレージ機能: Cloud Storage または BigQuery。推奨されるオープン テーブル形式は Apache Iceberg
  • メタストア: BigLake Metastore
  • クエリエンジン: BigQuery、Apache Spark、Apache Flink、Trino などのオープンソース エンジン
  • データの書き込みと分析のためのツール: さまざまな BigQuery とオープンソースの接続

BigLake は、これらのコンポーネントをすべて、統一されたガバナンスを備えた単一のエクスペリエンスにパッケージ化します。BigLake のアーキテクチャとイノベーションの詳細については、BigLake の進化をご覧ください。

メタストアを選択する

メタストアには、BigLake Metastore を使用することをおすすめします。BigLake metastore は、 Google Cloud上のレイクハウス用のフルマネージドのサーバーレス メタストアです。複数のソースのメタデータの信頼できる唯一の情報源となり、BigQuery やさまざまなオープンデータ処理エンジンからアクセスできるため、カスタマイズされたツールを使用して異なるリポジトリ間でメタデータをコピーして同期する必要がなくなります。BigLake metastore は Dataplex Universal Catalog でサポートされています。これにより、サポートされているすべてのエンジンで統一されたきめ細かいアクセス制御が可能になり、包括的なリネージ、データ品質、検出可能性の機能を含むエンドツーエンドのガバナンスが実現します。

表形式を選択する

オープン レイクハウスのメタストアとして BigLake Metastore を使用する場合、テーブルの形式として次のいずれかを選択できます。

  • BigQuery で管理されるデータには、標準の BigQuery テーブルを選択します。これらのテーブルは BigQuery によってフルマネージドされ、最先端のデータ分析機能と管理機能が備わっています。これらのテーブルは BigLake metastore に接続できます。Iceberg 以外のテーブルの場合は、このオプションを選択します。
  • BigQuery でのフルマネージド エクスペリエンスを実現するには、[BigQuery の BigLake Iceberg テーブル] を選択します。これらのテーブルは、BigQuery から作成して Cloud Storage に保存する Iceberg テーブルです。BigLake metastore を使用するすべてのテーブルと同様、オープンソース エンジンまたは BigQuery で読み取れます。ただし、BigQuery はこれらのテーブルに直接書き込むことができる唯一のエンジンです。抽出、変換、読み込み(ETL)ワークフローを BigQuery で管理する場合は、このオプションを選択します。
  • Google Cloudでの準マネージド エクスペリエンスには、BigLake Iceberg テーブルを選択します。これらのテーブルは、オープンソース エンジンから作成して Cloud Storage に保存する Iceberg テーブルです。BigLake metastore を使用するすべてのテーブルと同様、オープンソース エンジンまたは BigQuery で読み取れます。ただし、テーブルを作成したオープンソース エンジンのみが、テーブルに書き込むことができます。ETL ワークフローをオープンソース エンジンで管理する場合は、このオプションを選択します。
  • BigLake メタストアの外部にあるテーブルの場合は、外部テーブルを選択します。これらのテーブルのデータとメタデータは完全にセルフマネージドであり、オープン テーブル形式(Iceberg、Apache Hudi、Delta Lake など)の機能に完全に依存します。BigQuery はこれらのテーブルから読み取るだけです。サードパーティ カタログで独自に管理するデータとメタデータには、このオプションを選択します。

次の表で、表の形式のオプションを比較してください。

外部テーブル BigLake Iceberg テーブル BigQuery の BigLake Iceberg テーブル 標準の BigQuery テーブル
メタストア 外部またはセルフホストのメタストア BigLake Metastore BigLake Metastore BigLake Metastore
ストレージ Cloud Storage / Amazon S3 / Azure Cloud Storage Cloud Storage BigQuery
管理 お客様または第三者 Google Google(高度なマネージド エクスペリエンス) Google(最も高度なマネージド エクスペリエンス)
読み取り / 書き込み オープンソース エンジン(読み取り/書き込み)

BigQuery(読み取り専用)
オープンソース エンジン(読み取り/書き込み)

BigQuery(読み取り専用)
オープンソース エンジン(Iceberg ライブラリでの読み取り専用、BigQuery Storage API との読み取り/書き込みの相互運用性)

BigQuery(読み取り/書き込み)

オープンソース エンジン(BigQuery Storage API との読み取り/書き込みの相互運用性)

BigQuery(読み取り/書き込み)

Use cases 移行、BigQuery ロード用のステージング テーブル、セルフマネージメント オープン レイクハウス 分析、ストリーミング、AI 向けのエンタープライズ グレードのストレージを備えたオープン レイクハウス 分析、ストリーミング、AI 向けのエンタープライズ グレードのストレージ

次のステップ