レイクハウス ランタイム カタログ は、データ レイクハウスの唯一の情報源を提供するフルマネージドのサーバーレス サービスです。Apache Spark、Apache Flink、BigQuery などの複数のエンジンで、ファイルをコピーせずにテーブルとメタデータを共有できます。
レイクハウス ランタイム カタログは、ストレージ アクセス委任(認証情報ベンダー)をサポートしています。これにより、Cloud Storage バケットに直接アクセスする必要がなくなり、セキュリティが向上します。また、 Knowledge Catalog と統合して、 ガバナンス、リネージ、データ品質を統合します。
主な機能
レイクハウス ランタイム カタログは、Google Cloud Lakehouseのコンポーネントとして、データ管理と分析に いくつかのメリットをもたらします。たとえば、サーバーレス アーキテクチャ、オープン API とのエンジン相互運用性、統合されたユーザー エクスペリエンス、 BigQuery と併用した場合の高性能な分析、ストリーミング、AI などです。これらのメリットの詳細については、What is Google Cloud Lakehouse?をご覧ください。
サポートされているエンジン
レイクハウス ランタイム カタログは、Apache Spark、Apache Flink、Trino などの複数のクエリエンジンと互換性があります。 次の表に、各エンジンのドキュメントへのリンクを示します。
| エンジン | ドキュメント |
|---|---|
| Apache Spark | クイックスタート: Spark で使用する |
| Apache Flink | Apache Flink で使用する |
| Trino | Trino で使用する |
構成オプション
レイクハウス ランタイム カタログは、Apache Iceberg REST カタログ エンドポイント または BigQuery 用のカスタム Apache Iceberg カタログ エンドポイント *のいずれかを使用して構成できます。最適なオプションは、次の表に示すように、ユースケースによって異なります。
| ユースケース | 推奨事項 |
|---|---|
| オープンソース エンジンから Cloud Storage 内のデータにアクセスし、BigQuery や AlloyDB for PostgreSQL などの他のエンジンとの相互運用性を必要とする、新しい Lakehouse ランタイム カタログ ユーザー。 | Apache Iceberg REST カタログ エンドポイントを使用します。 |
| BigQuery 用のカスタム Apache Iceberg カタログを使用する現在のテーブルがある、既存の Lakehouse ランタイム カタログ ユーザー。 | BigQuery 用のカスタム Apache Iceberg カタログ エンドポイントを引き続き使用しますが、新しいワークフローには Apache Iceberg REST カタログを使用します。BigQuery 用のカスタム Apache Iceberg カタログ エンドポイントで作成されたテーブルは、 BigQuery カタログ フェデレーションを介して Apache Iceberg REST カタログで表示されます。 |
BigLake metastore(クラシック)との違い
Lakehouse ランタイム カタログは Google Cloudで推奨されるメタストアですが、 BigLake metastore(クラシック)は レガシー機能と見なされます。
Lakehouse ランタイム カタログと BigLake metastore(クラシック)の主な違いは次のとおりです。
- Lakehouse ランタイム カタログは、Spark などのオープンソース エンジンとの直接統合をサポートしているため、メタデータの保存とジョブの実行時の冗長性を軽減できます。Lakehouse ランタイム カタログのテーブルには、複数のオープンソース エンジンと BigQuery から直接アクセスできます。
- Lakehouse ランタイム カタログは Apache Iceberg REST カタログ エンドポイントをサポートしていますが、BigLake metastore(クラシック)は サポートしていません。
Lakehouse ランタイム カタログの制限事項
Lakehouse ランタイム カタログのテーブルには次の制限が適用されます。
テーブル管理
- BigQuery データ定義言語(DDL)またはデータ操作言語(DML)ステートメントを使用して、Lakehouse Iceberg REST カタログ テーブルを作成または変更することはできません。BigQuery API(bq コマンドライン ツールまたはクライアント ライブラリを使用)を使用して Lakehouse Iceberg REST カタログ テーブルを変更することはできますが、外部エンジンと互換性のない変更が行われる可能性があります。
- Lakehouse ランタイム カタログ テーブルは、名前変更
オペレーションや
ALTER TABLE ... RENAME TOSpark SQL ステートメントをサポートしていません。 - Lakehouse ランタイム カタログ テーブルは クラスタリングをサポートしていません。
- Lakehouse ランタイム カタログ テーブルは、柔軟な列 名をサポートしていません。
- Lakehouse ランタイム カタログは Apache Iceberg ビューをサポートしていません。
クエリ
- BigQuery エンジンの Lakehouse ランタイム カタログ テーブルに対するクエリのパフォーマンスは、標準的な BigQuery テーブルのデータに対するクエリよりも低速になる可能性があります。一般的に、クエリ速度は Cloud Storage からのデータの読み取りと同等になります。
- Lakehouse ランタイム カタログ テーブルを使用するクエリの BigQuery ドライラン で、行が返されても、下限 0 バイトと報告される場合があります。この結果は、テーブルから処理されるデータ量をクエリ全体が実行されるまで特定できないために発生します。クエリを実行すると、このデータの処理に費用が発生します。
- ワイルドカード テーブル クエリで Lakehouse ランタイム カタログ テーブルを参照することはできません。
API とメタデータ
- Lakehouse ランタイム カタログ テーブルからデータを取得するために
tabledata.listmethod を使用することはできません。代わりに、クエリ結果を BigQuery テーブルに保存し、そのテーブルでtabledata.listメソッドを使用できます。 - Lakehouse ランタイム カタログ テーブルのテーブル ストレージ統計情報の表示はサポートされていません。
割り当てと上限
- BigQuery の Lakehouse ランタイム カタログ テーブルには、 標準的な テーブルと同じ割り当てと上限が適用されます。
次のステップ
- Apache Iceberg REST カタログ エンドポイントについて理解する。