BigLake Metastore について

BigLake metastore は、データ レイクハウスの信頼できる唯一の情報源を提供するフルマネージドのサーバーレス サービスです。Apache Spark、Apache Flink、BigQuery などの複数のエンジンで、ファイルをコピーせずにテーブルとメタデータを共有できます。

BigLake metastore は、ストレージ アクセス委任(認証情報ベンディング)をサポートしています。これにより、Cloud Storage バケットに直接アクセスする必要がなくなり、セキュリティが向上します。また、Knowledge Catalog と統合して、ガバナンス、リネージ、データ品質を統合します。

主な機能

BigLake のコンポーネントとして、BigLake metastore は、サーバーレス アーキテクチャ、オープン API を使用したエンジン間の相互運用性、統合されたユーザー エクスペリエンス、BigQuery と併用した場合の高パフォーマンスの分析、ストリーミング、AI など、データ管理と分析にいくつかの利点をもたらします。これらのメリットの詳細については、 BigLake とはをご覧ください。

サポートされているエンジン

BigLake metastore は、Apache Spark、Apache Flink、Trino などの複数のクエリエンジンと互換性があります。次の表に、各エンジンのドキュメントへのリンクを示します。

エンジン ドキュメント
Apache Spark クイックスタート: Spark で使用する
Apache Flink Apache Flink で使用する
Trino Trino で使用する

構成オプション

BigLake metastore は、Iceberg REST カタログ または BigQuery 用のカスタム Iceberg カタログ のいずれかを使用して構成できます。次の表に示すように、最適なオプションはユースケースによって異なります。

ユースケース 推奨事項
オープンソース エンジンから Cloud Storage 内のデータにアクセスし、BigQuery や AlloyDB for PostgreSQL などの他のエンジンとの相互運用性を必要とする BigLake metastore の新規ユーザー。 Iceberg REST カタログを使用します。
BigQuery 用のカスタム Iceberg カタログを使用して現在のテーブルを使用している BigLake metastore の既存のユーザー。 BigQuery 用のカスタム Iceberg カタログを引き続き使用しますが、新しいワークフローには Iceberg REST カタログを使用します。BigQuery 用のカスタム Iceberg カタログで作成されたテーブルは、BigQuery カタログ連携を介して Iceberg REST カタログで表示されます。

BigLake metastore(クラシック)との違い

BigLake metastore は Google Cloudで推奨されるメタストアですが、 BigLake metastore(クラシック)はレガシー機能と見なされます。

BigLake metastore と BigLake metastore(クラシック)の主な違いは次のとおりです。

  • BigLake metastore は、Spark などのオープンソース エンジンとの直接統合をサポートしているため、メタデータの保存とジョブの実行時の冗長性を軽減できます。BigLake metastore のテーブルには、複数のオープンソース エンジンと BigQuery から直接アクセスできます。
  • BigLake metastore は Iceberg REST カタログをサポートしていますが、BigLake metastore(クラシック)はサポートしていません。

BigLake metastore の制限事項

BigLake metastore のテーブルには次の制限が適用されます。

テーブル管理

  • BigQuery データ定義言語(DDL)またはデータ操作言語(DML)ステートメントを使用して、BigLake Iceberg テーブルを作成または変更することはできません。BigQuery API(bq コマンドライン ツールまたはクライアント ライブラリを使用)を使用して BigLake Iceberg テーブルを変更することはできますが、外部エンジンと互換性のない変更が行われる可能性があります。
  • BigLake metastore テーブルは、名前変更 オペレーションALTER TABLE ... RENAME TO Spark SQL ステートメントをサポートしていません。
  • BigLake metastore テーブルは クラスタリングをサポートしていません。
  • BigLake metastore テーブルは、柔軟な列 名をサポートしていません。
  • BigLake metastore は Iceberg ビューをサポートしていません。

クエリ

  • BigQuery エンジンの BigLake metastore テーブルに対するクエリのパフォーマンスは、標準的な BigQuery テーブルのデータに対するクエリよりも低速になる可能性があります。一般に、クエリ速度は Cloud Storage からのデータの読み取りと同等です。
  • BigLake metastore のテーブルを使用するクエリの BigQuery ドライラン で、行が返されても、下限 0 バイトと報告される場合があります。この結果は、テーブルから処理されるデータ量をクエリ全体が実行されるまで特定できないために発生します。連携クエリを実行すると、このデータの処理に費用がかかります。
  • ワイルドカード テーブルのクエリで BigLake metastore テーブルを参照することはできません。

API とメタデータ

割り当てと上限

  • BigQuery の BigLake metastore テーブルには、 標準的な テーブルと同じ割り当てと上限が適用されます。

次のステップ