Lakehouse ランタイム カタログは、データ レイクハウスの信頼できる唯一の情報源を提供するフルマネージドのサーバーレス サービスです。Apache Spark、Apache Flink、BigQuery などの複数のエンジンで、ファイルをコピーせずにテーブルとメタデータを共有できます。
Lakehouse ランタイム カタログは、ストレージ アクセス委任(認証情報の提供)をサポートしています。これにより、Cloud Storage バケットに直接アクセスする必要がなくなり、セキュリティが向上します。また、 Knowledge Catalog と統合して、統合された ガバナンス、リネージ、データ品質を実現します。
主な機能
Lakehouse ランタイム カタログは、Lakehouse for Apache Iceberg のコンポーネントとして、サーバーレス アーキテクチャ、オープン API を使用したエンジン間の相互運用性、統合されたユーザー エクスペリエンス、BigQuery と併用した場合の高性能な分析、ストリーミング、AI など、データ 管理と分析にいくつかのメリットをもたらします。これらのメリットの詳細については、Lakehouse とは をご覧ください。
サポートされているエンジン
Lakehouse ランタイム カタログは、Apache Spark、Apache Flink、Trino などの複数のクエリエンジンと互換性があります。次の表に、各エンジンのドキュメントへのリンクを示します。
| エンジン | ドキュメント |
|---|---|
| Apache Spark | クイックスタート: Spark で使用する |
| Apache Flink | Apache Flink で使用する |
| Trino | Trino で使用する |
エンドポイント構成オプション
Lakehouse ランタイム カタログは、 Apache Iceberg REST カタログ エンドポイントまたは BigQuery エンドポイント用のカスタム Apache Iceberg カタログのいずれかを使用して構成できます。最適なオプションは、次の表に示すように、ユースケースによって異なります。
| ユースケース | 推奨事項 |
|---|---|
| オープンソース エンジンから Cloud Storage 内のデータにアクセスし、BigQuery や AlloyDB for PostgreSQL などの他のエンジンとの相互運用性を必要とする Lakehouse ランタイム カタログの新規ユーザー。 | Apache Iceberg REST カタログ エンドポイントを使用します。 |
| BigQuery エンドポイント用のカスタム Apache Iceberg カタログで作成された現在のテーブルがある、Lakehouse ランタイム カタログの既存のユーザー。 | BigQuery エンドポイント用のカスタム Apache Iceberg カタログを引き続き使用しますが、新しいワークフローには Apache Iceberg REST カタログを使用します。BigQuery カタログ連携により、BigQuery エンドポイント用のカスタム Apache Iceberg カタログで作成されたテーブルは、Apache Iceberg REST カタログ エンドポイントで表示されます。 |
BigLake metastore(クラシック)との違い
Lakehouse ランタイム カタログは Google Cloudで推奨される metastore ですが、BigLake metastore (クラシック)はレガシー 機能と見なされます。
Lakehouse ランタイム カタログと BigLake metastore(クラシック)の主な違いは次のとおりです。
- Lakehouse ランタイム カタログは、Spark などのオープンソース エンジンとの直接統合をサポートしているため、メタデータの保存とジョブの実行時の冗長性を軽減できます。Lakehouse ランタイム カタログのテーブルには、複数のオープンソース エンジンと BigQuery から直接アクセスできます。
- Lakehouse ランタイム カタログは Apache Iceberg REST カタログ エンドポイントをサポートしていますが、BigLake metastore(クラシック)はサポートしていません。
Lakehouse ランタイム カタログの制限事項
Lakehouse ランタイム カタログのテーブルには次の制限が適用されます。
テーブル管理
- BigQuery データ定義言語(DDL)またはデータ操作言語(DML)ステートメントを使用して、Apache Iceberg REST カタログ エンドポイントでテーブルを作成または変更することはできません。BigQuery API(bq コマンドライン ツールまたはクライアント ライブラリを使用)を使用してこれらのテーブルを変更することはできますが、外部エンジンと互換性のない変更が行われる可能性があります。
- Lakehouse ランタイム カタログのテーブルは、
名前変更オペレーションや
ALTER TABLE ... RENAME TOSpark SQL ステートメントをサポートしていません。 - Lakehouse ランタイム カタログのテーブルは クラスタリングをサポートしていません。
- Lakehouse ランタイム カタログのテーブルは、 柔軟な列名をサポートしていません。
- Lakehouse ランタイム カタログは Apache Iceberg ビューをサポートしていません。
クエリ
- BigQuery エンジンの Lakehouse ランタイム カタログのテーブルに対するクエリのパフォーマンスは、標準的な BigQuery テーブルのデータに対するクエリよりも低速になる可能性があります。一般的に、クエリ速度は Cloud Storage からデータを読み取る速度と同等になります。
- Lakehouse ランタイム カタログのテーブルを使用するクエリの BigQuery ドライランで、行が返されても、下限 0 バイトと報告される場合があります。この結果は、テーブルから処理されるデータ量をクエリ全体が実行されるまで特定できないために発生します。クエリを実行すると、このデータの処理に費用が発生します。
- ワイルドカード テーブル クエリで Lakehouse ランタイム カタログのテーブルを参照することはできません。 ワイルドカード テーブル クエリ。
API とメタデータ
tabledata.listメソッド を使用して、Lakehouse ランタイム カタログのテーブルからデータを取得することはできません。代わりに、クエリ結果を BigQuery テーブルに保存し、そのテーブルでtabledata.listメソッドを使用できます。- Lakehouse ランタイム カタログのテーブルのテーブル ストレージ統計情報の表示はサポートされていません。
割り当てと上限
- BigQuery の Lakehouse ランタイム カタログのテーブルには、標準的なテーブルと同じ 割り当てと 上限が適用されます。
次のステップ
- Apache Iceberg REST カタログ エンドポイントについて理解する。