2026 年 4 月 20 日より、BigLake は Lakehouse for Apache Iceberg に名称変更されました。BigLake metastore は、Lakehouse ランタイムカタログと呼ばれるようになりました。Lakehouse API、クライアントライブラリ、CLI コマンド、IAM 名は変更されず、引き続き BigLake を参照します。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Lakehouse ランタイムカタログについて

Lakehouse for Apache Iceberg は、 Google Cloud上のマネージドデータレイクハウスプラットフォームです。その中核となるのは、Lakehouse ランタイムカタログです。これは、フルマネージドのサーバーレスメタストアサービスであり、データの信頼できる唯一の情報源となります。このメタデータを一元化することで、Apache Spark、Apache Flink、Apache Hive、BigQuery などの複数の処理エンジンが、ファイルを複製することなくテーブルをシームレスに共有できます。

クエリエンジンをメタストアに接続するには、 Apache Iceberg REST カタログ などのエンドポイントを使用してクライアントを構成します。これは、Lakehouse ランタイムカタログ内の管理インターフェースとして機能し、テーブルメタデータを処理します。基盤となるメタデータとデータファイルは Cloud Storage に保存されます。

主な機能

Lakehouse の主要コンポーネントとして、 Lakehouse ランタイムカタログは、データ管理と分析にいくつかのメリットをもたらします。たとえば、サーバーレスアーキテクチャ、エンジン間の相互運用性、統一されたユーザーエクスペリエンス、BigQuery との併用による高性能な分析、ストリーミング、AI などです。これらのメリットの詳細については、Lakehouse とはをご覧ください。

Lakehouse との統合方法 Google Cloud

Lakehouse がデータを管理する方法については、 Lakehouse for Apache Iceberg アーキテクチャと Google Cloud サービスの統合方法をご覧ください。 Apache Iceberg は、データをモノリシックテーブルに保存しません。代わりに、メタデータファイルの階層型アーキテクチャを使用して、データファイルを ACID トランザクションをサポートするまとまりのあるテーブル構造に整理します。

次の図は、Managed Service for Apache Spark などのコンピューティングエンジンが Lakehouse ランタイムカタログを使用してテーブルメタデータを管理し、Cloud Storage 内の基盤となる Parquet データファイルを直接読み書きする方法を示しています。

レイクハウスアーキテクチャのコンポーネント（Managed Service for Apache Spark、Cloud Storage、Lakehouse REST Catalog など）。 — Lakehouse アーキテクチャ図。

Lakehouse for Apache Iceberg を使用する場合、技術アーキテクチャは次の 3 つの異なるレイヤで構成されます。

カタログレイヤ:
- Iceberg のコアコンセプト: カタログは、最新のメタデータファイルへのポインタを保持することで、テーブルの現在の状態を保存します。このレイヤは、ACID 準拠とトランザクション分離を容易にし、同時書き込みが相互に干渉しないようにします。
- Lakehouse の実装: Lakehouse ランタイムカタログ は、最上位のリージョンメタストアサービスとして機能します。このサービス内で、個々の カタログを作成してデータ階層を管理します。クライアントクエリエンジンは、特定のエンドポイントカタログタイプを使用して、これらのカタログに接続します。たとえば、Apache Iceberg REST カタログエンドポイントなどです。メタストアは、トランザクションのコミット、ストレージアクセス委任の認証情報ベンダー、カタログ間のポインタ管理を管理します。
メタデータレイヤ:
- Iceberg のコアコンセプト: このレイヤは、次の 3 種類のファイル階層を使用して、テーブル構造、スナップショット、ファイルの場所を追跡します:
  - メタデータファイル: テーブルのスキーマ、パーティション仕様、スナップショットポインタのログを保存します。
  - マニフェストリスト: マニフェストファイルのコレクションをグループ化して、テーブルの単一のスナップショットを表します。
  - マニフェストファイル: 個々のファイルレベルでデータを追跡し、ファイルパス、パーティション情報、列レベルの統計情報（行数、最小値、最大値など）を保存します。これらは、クエリの最適化とパーティションプルーニングに使用されます。
- Lakehouse の実装: カタログコンテナ内で、データを論理的な 名前空間 （データセットと同様）と テーブルに整理します。各テーブルについて、Lakehouse ランタイムカタログは、マニフェストリストとマニフェストファイルを指すルート metadata.json ファイルから始まる、基盤となる Iceberg メタデータ階層を生成して管理します。Lakehouse ランタイムカタログは、指定されたウェアハウスストレージの場所にこれらのファイルを直接保存します。
データレイヤ:
- Iceberg のコアコンセプト: このコンポーネントは、実際の未加工データレコードが存在する基盤となるストレージです。通常は、最適化された列ベースまたは行ベースのオープンファイル形式 (Parquet、ORC、Avro など) です。
- Lakehouse の実装: Cloud Storage ウェアハウスの場所（bl:// または gs://）を構成すると、テーブルで参照される物理データファイルはバケット内に安全に保存されます。 Lakehouse ランタイムカタログは、 ストレージアクセス委任（認証情報ベンダー）を介してアクセスを管理し、有効期間の短いアクセストークンをクライアントエンジンに直接提供します。これにより、エンジンは基盤となるバケットに対する広範な直接 IAM 権限を必要とせずに、データファイルを安全に読み書きできます。

Lakehouse で Apache Iceberg REST Catalog API を実装する方法

Lakehouse ランタイムカタログは、オープンソース Apache Iceberg REST Catalog API を実装して、名前空間とテーブルを管理します。また、カタログ管理専用の拡張 API も提供します。

クライアントクエリエンジンは、これらの標準 REST カタログ API を使用してメタストアとやり取りします。Google Cloud リソースとエンドポイントの詳細については、 Lakehouse REST API リファレンスをご覧ください。

これらのリソースは、 Google Cloud コンソール、gcloud CLI、REST API、または Terraform を使用して作成、構成、管理できます。詳しくは次のページをご覧ください。

クエリエンジンの互換性と構成

Lakehouse ランタイムカタログでデータを分析して管理するには、さまざまなオープンソースエンジンとエンタープライズクエリエンジンを接続できます。既存のアーキテクチャとワークロードの要件に応じて、サポートされている複数のエンジンから選択し、適切なカタログエンドポイントを構成できます。

サポートされているエンジン

Lakehouse ランタイムカタログは、Apache Spark、Apache Flink、Apache Hive、Trino など、いくつかのクエリエンジンと互換性があります。次の表に、各エンジンのドキュメントへのリンクを示します。

エンジン	ドキュメント
Apache Spark	Apache Spark で使用する
Apache Hive	Spark と Hive カタログで使用する
Apache Flink	Apache Flink で使用する
Trino	Trino で使用する

カタログタイプとエンドポイント構成

Lakehouse ランタイムカタログメタストアに接続するようにクライアントエンジンを構成する場合は、 Apache Iceberg REST カタログ エンドポイントや Apache Hive エンドポイントなど、特定の カタログ エンドポイントを選択します。最適なオプションは、次の表に示すように、ユースケースによって異なります。

ユースケース	推奨事項
オープンソースエンジンから Cloud Storage 内のデータにアクセスし、BigQuery や AlloyDB for PostgreSQL などの他のエンジンとの相互運用性を必要とする、Lakehouse ランタイムカタログの新しいユーザー。	Apache Iceberg REST カタログエンドポイントを使用します。
Hive Metastore インターフェースに依存する Apache Hive または Spark ワークロードを実行し、フルマネージドのメタストアサービスを必要とするユーザー。	Apache Hive カタログエンドポイントを使用します。
BigQuery エンドポイント用のカスタム Apache Iceberg カタログで作成された現在のテーブルがある、既存の Lakehouse ランタイムカタログユーザー。	BigQuery エンドポイント用のカスタム Apache Iceberg カタログを引き続き使用しますが、新しいワークフローには Apache Iceberg REST カタログを使用します。

Lakehouse ランタイムカタログの制限事項

BigQuery を介してクエリを実行する場合、Lakehouse ランタイムカタログのテーブルには次の一般的な制限が適用されます。個々のカタログエンドポイント（Apache Iceberg REST や Apache Hive など）には、エンドポイント固有の追加の制限がある場合があります。

テーブル管理

Apache Iceberg V2 テーブル（一般提供）と V3 テーブル（プレビュー）がサポートされています。Iceberg V1 テーブルはサポートされていません。既存の V1 テーブルを Lakehouse ランタイムカタログで使用する前に、サポートされているバージョンにアップグレードする必要があります。詳細については、Iceberg V1 テーブルを V2 にアップグレードするをご覧ください。
Lakehouse ランタイムカタログのテーブルは、名前変更オペレーションや ALTER TABLE ... RENAME TO Spark SQL ステートメントをサポートしていません。
Lakehouse ランタイムカタログのテーブルはクラスタリングをサポートしていません。
Lakehouse ランタイムカタログのテーブルは、柔軟な列名をサポートしていません。
Lakehouse ランタイムカタログは、データベースビューまたはメタストアビューをサポートしていません。

柔軟な列名。
Lakehouse ランタイムカタログは、Apache Iceberg ビューをサポートしていません。

クエリ

BigQuery エンジンの Lakehouse ランタイムカタログのテーブルに対するクエリのパフォーマンスは、標準的な BigQuery テーブルのデータに対するクエリよりも低速になる可能性があります。一般的に、クエリ速度は Cloud Storage からデータを読み取る速度と同等になります。
Lakehouse ランタイムカタログのテーブルを使用するクエリの BigQuery ドライランで、行が返されても、下限 0 バイトと報告される場合があります。この結果は、テーブルから処理されるデータの量が、クエリ全体が実行されるまで判別できないために発生します。クエリを実行すると、このデータの処理に費用が発生します。
ワイルドカードテーブルクエリで、Lakehouse ランタイムカタログのテーブルを参照することはできません。

API とメタデータ

tabledata.list メソッドを使用して、Lakehouse ランタイムカタログのテーブルからデータを取得することはできません。代わりに、クエリ結果を BigQuery テーブルに保存し、そのテーブルで tabledata.list メソッドを使用できます。
Lakehouse ランタイムカタログのテーブルのテーブルストレージ統計情報の表示はサポートされていません。

割り当てと上限

BigQuery の Lakehouse ランタイムカタログのテーブルには、標準的なテーブルと同じ割り当てと上限が適用されます。

BigLake metastore（クラシック）との違い

Lakehouse ランタイムカタログと BigLake metastore（クラシック）の主な違いは次のとおりです。

Lakehouse ランタイムカタログは、Spark などのオープンソースエンジンとの直接統合をサポートしているため、メタデータの保存とジョブの実行時の冗長性を軽減できます。Lakehouse ランタイムカタログのテーブルには、複数のオープンソースエンジンと BigQuery から直接アクセスできます。
Lakehouse ランタイムカタログは Apache Iceberg REST カタログエンドポイントをサポートしていますが、BigLake metastore（クラシック）はサポートしていません。

次のステップ

Apache Iceberg REST カタログエンドポイントについて理解する。