2026 年 4 月 20 日より、BigLake は Lakehouse for Apache Iceberg に名称変更されました。BigLake metastore は、Lakehouse ランタイムカタログと呼ばれるようになりました。Lakehouse API、クライアントライブラリ、CLI コマンド、IAM 名は変更されず、引き続き BigLake を参照します。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

制限事項と考慮事項

Spark と Hive を Lakehouse ランタイムカタログと統合すると、セルフホスト型 Hive メタストア（HMS）の維持に伴う運用上のオーバーヘッドが解消され、BigQuery での統合メタデータの共有とテーブルの直接クエリが可能になります。

このドキュメントでは、この統合の機能上の制約とサービスに関する考慮事項について説明します。Lakehouse ランタイムカタログでオープンソースデータベースパイプラインを移行または構築する前に、これらの制限事項を確認して、このプレビューが技術要件を満たしているかどうかを判断してください。

制限事項ではなく構成とクエリの手順については、 Lakehouse ランタイムカタログで Spark と Hive を使用するをご覧ください。

Lakehouse ランタイムカタログの制限事項

このセクションでは、さまざまなサービスで Lakehouse ランタイムカタログを使用する場合の制限事項について説明します。

メタストアの制限事項

Managed Service for Apache Spark は、Lakehouse メタストアを使用する PySpark ジョブのみをサポートしています。
Dataproc API では、properties フィールドに Lakehouse メタストアのプロパティを設定できません。
Lakehouse ランタイムカタログは委任トークンまたは主キー API をサポートしていないため、Kerberos を使用する Managed Service for Apache Spark クラスタを作成できません。
Cloud Storage バケットが Hive カタログと同じリージョンにある限り、データベースとテーブルは Hive カタログとは異なる Cloud Storage location_uri を使用できます。

テーブルの制限事項

テーブルの名前変更はサポートされていません。
パーティションの名前変更はサポートされていません。
テーブルまたはデータベースを削除しても、関連するファイルは Cloud Storage から削除されません。
大文字と小文字を区別しない検索はサポートされていません。
クラスタリングとバケット化はサポートされていません。

パーティションのバッチサイズ

Lakehouse ランタイムカタログは、パーティションプルーニングで使用するパーティショニング情報の保存と取得をサポートしています。書き込みよりも読み取りに最適化されているため、パーティションプルーニングによってクエリのパフォーマンスが向上します。

パーティションの取り込みパフォーマンスを最適化するため、バッチパーティションサイズは 900 に制限されています。

パーティショニングオペレーションのバッチサイズを決定する Hive と Spark のプロパティに次の構成を設定します。

SET hive.msck.repair.batch.size = 900;
SET spark.sql.addPartitionInBatch.size = 900;

BigQuery の制限事項

デフォルトでは、BigQuery は ARRAY<ARRAY<>> または ARRAY<MAP<>> データ型をサポートしていません。MAP のサポートを許可リストに追加する必要があります。ワークロードで MAP を多用する場合は、biglake-help@google.com までお問い合わせください。
MAP キータイプはプリミティブデータ型のみをサポートしています。ARRAY、STRUCT、MAP をキータイプとして使用することはできません。
プレビュー期間中、BigQuery は Cloud Storage のデータのみをクエリできます。次の制限が適用されます。
- テーブルのロケーション URI にワイルドカード（*）を含めることはできません。
- テーブルのロケーション URI はディレクトリである必要があります。

リージョン間レプリケーションと障害復旧の制限事項

Lakehouse ランタイムカタログは、リージョン間レプリケーションと障害復旧を提供し、カタログの可用性と復元力を向上させます。

Lakehouse ランタイムカタログを Hive カタログで使用する場合、次の制限が適用されます。

Hive カタログは、ユーザーが開始するフェイルオーバーなど、完全な障害復旧機能を提供しません。
Hive カタログを作成する場合は、Cloud Storage バケットのリージョンと一致するように primary_location を設定する必要があります。Lakehouse ランタイムカタログは、バケットのデュアルリージョンまたはマルチリージョン構成に基づいて、メタデータをセカンダリリージョンに自動的にコピーします。このセカンダリメタデータのコピーは読み取り専用であり、プライマリに昇格させることはできません。データの冗長性は、バケットのデュアルリージョンまたはマルチリージョン設定に依存します。これは、Lakehouse ランタイムカタログのメタデータレプリケーションとは異なります。

Lakehouse ランタイムカタログを Hive メタストアの代替として使用する場合の考慮事項

Lakehouse ランタイムカタログのプレビューバージョンは、Hive メタストアインターフェースのサブセットをサポートしています。この設計では、Hive メタストアとの完全な互換性を必要としない Spark ExternalCatalog との互換性が優先されます。

リソースマッピング

次の表に、Hive メタストアリソースと Lakehouse ランタイムカタログリソース、および必要な Identity and Access Management（IAM）権限を示します。

Hive メタストアリソース	Lakehouse ランタイムカタログリソース	IAM 権限
カタログ	カタログ	`biglake.catalogs.*`
データベース	データベース	`biglake.namespaces.*`
テーブル	テーブル	`biglake.tables.*`

ガバナンス

Hive メタストア（HMS）は、テーブル、列、パーティションレベルでガバナンスを提供します。Lakehouse ランタイムカタログは、テーブルレベルとパーティションレベルの IAM 権限を提供します。列レベルのガバナンスはサポートされていません。

ストレージの制限事項

BigQuery 外部テーブルの制限がすべて適用されます。

パーティションの制限事項

パーティションレベルでの列レベルの統計情報のトラッキングはサポートされていません。
BatchCreateHivePartitions API は、呼び出しを 900 パーティションに制限します。

次のステップ

Lakehouse ランタイムカタログで Spark と Hive を使用する。