基本的なコンセプト

このドキュメントでは、BigLake の主な用語とコンセプトについて説明します。

基本概念

次のコンセプトは、BigLake アーキテクチャの基盤を形成します。

データレイクハウス

データレイクハウスは、データレイクの費用対効果と柔軟性に、データウェアハウスのデータ管理とパフォーマンス構造を組み合わせたデータアーキテクチャです。BigLake を使用すると、Cloud Storage のオープンフォーマットでデータを保持しながら、きめ細かいセキュリティや高性能クエリなどの BigQuery の機能を使用できるため、レイクハウスアーキテクチャを実現できます。詳細については、BigLake の仕組みをご覧ください。

オープンな相互運用性

オープンな相互運用性とは、BigQuery、Spark、Flink などの複数の分析システムとトランザクションシステムが、Apache Iceberg などのオープンフォーマットのデータの単一コピーで動作できることです。これにより、データの重複が不要になり、異なるツール間でデータの整合性が確保されます。詳細については、BigLake の仕組みをご覧ください。

BigLake Metastore

BigLake metastore は、レイクハウスの信頼できる唯一の情報源として機能する、一元化されたサーバーレスメタデータサービスです。これにより、Spark、Flink、BigQuery などの複数のエンジンが同じテーブルを同時に検出してクエリできます。詳細については、BigLake Metastore についてをご覧ください。

カタログの種類

BigLake metastore には、メタデータを管理するための 2 種類のカタログがあります。カタログの選択は、データとのやり取りに影響する基本的な決定です。

Iceberg REST カタログ

これは、Apache Iceberg REST カタログ仕様に基づくカタログです。オープンソースエンジンと BigQuery の相互運用性を提供し、認証情報のベンディングや障害復旧などの機能をサポートします。詳細については、Apache Iceberg REST カタログのコンセプトをご覧ください。

BigQuery 用のカスタム Iceberg カタログ

これは、BigQuery をバッキングメタストアとして直接使用する統合です。詳細については、BigQuery とのカタログ連携をご覧ください。

テーブルの形式

BigLake は、データの管理に使用されるエンジンに応じて、複数のテーブル形式をサポートしています。

BigLake Iceberg テーブル

これらは、オープンソースエンジンから作成され、Cloud Storage に保存されている Iceberg テーブルです。BigLake Metastore は中央カタログとして機能します。テーブルを作成したオープンソースエンジンのみが、テーブルに書き込むことができます。詳細については、Apache Iceberg 用の BigLake Iceberg テーブルの概要をご覧ください。

BigQuery の BigLake Iceberg テーブル

これらは、BigQuery から作成して Cloud Storage に保存する Iceberg テーブルです。BigQuery は、すべてのデータレイアウトと最適化を処理します。これらのテーブルは複数のエンジンで読み取ることができますが、BigQuery はこれらのテーブルに直接書き込むことができる唯一のエンジンです。詳細については、BigQuery で BigLake Iceberg テーブルを管理するをご覧ください。

標準の BigQuery テーブル

これらのテーブルは BigQuery によって管理され、BigQuery ストレージにデータを保存します。これらのテーブルは BigLake metastore に接続できます。詳細については、BigLake テーブルの概要をご覧ください。

外部テーブル

外部テーブルは BigLake メタストアの外部に存在します。データとメタデータは、サードパーティカタログで自己管理されます。BigQuery はこれらのテーブルから読み取るだけです。詳細については、BigLake テーブルの概要をご覧ください。

表の機能

BigLake には、データマネジメントを簡素化し、Iceberg テーブルのクエリパフォーマンスを向上させる機能がいくつか用意されています。

テーブルの進化

BigLake は Iceberg テーブルの進化をサポートしています。これにより、テーブルデータを書き換えたり、テーブルを再作成したりすることなく、テーブルのスキーマやパーティション仕様を時間の経過とともに変更できます。詳細については、BigLake metastore の追加機能をご覧ください。

タイムトラベル

タイムトラベルを使用すると、特定の時点またはスナップショット ID に存在していたテーブルのデータをクエリできます。これは、監査、テストの再現、誤って削除した後のデータの復元に役立ちます。詳細については、BigLake metastore の追加機能をご覧ください。

メタデータのキャッシュ保存

メタデータのキャッシュ保存は、BigLake 外部テーブルのクエリパフォーマンスを高速化する機能です。テーブルのメタデータのコピーを BigQuery ストレージに保存するため、クエリの実行中に Cloud Storage からメタデータファイルを読み取る必要がなくなります。詳細については、BigLake テーブルの概要をご覧ください。

自動テーブルメンテナンス

自動テーブルメンテナンスにより、マネージドテーブルの圧縮やガベージコレクションなどのタスクが自動化され、レイクハウスの管理が簡素化されます。これにより、手動で介入することなく、最適なクエリパフォーマンスとストレージ効率が確保されます。詳細については、BigLake metastore の追加機能をご覧ください。

相互運用性のコンセプト

相互運用性により、 Google Cloud とオープンソースシステム間でデータアクセスが可能になります。

カタログの連携

カタログ連携は、カスタム Iceberg カタログで作成されたテーブルなど、BigQuery に表示されるテーブルを管理してクエリできる Iceberg REST カタログの機能です。詳細については、BigQuery とのカタログ連携をご覧ください。

P.C.N.T の命名規則

P.C.N.T 命名構造は、BigQuery から BigLake Metastore のテーブルを一意に識別してクエリするために使用される 4 部構成の規則です。Project.Catalog.Namespace.Table を表します。

プロジェクト: Google Cloud プロジェクト ID
カタログ: BigLake メタストアカタログの名前
Namespace: テーブルの論理グループ（データセットに類似）
Table: データテーブルの名前

詳細については、カタログのクエリをご覧ください。

セキュリティコンセプト

セキュリティ機能は、アクセス管理とデータ保護のメカニズムを提供します。

接続

接続は、外部データにアクセスするための認証情報を保存する BigQuery リソースです。BigLake では、接続のサービスアカウントがユーザーに代わってストレージバケットにアクセスできるようにすることで、接続が Cloud Storage へのアクセスを委任します。詳細については、BigQuery での認証をご覧ください。

認証情報の販売

認証情報のベンディングは、Iceberg REST カタログを使用する際にアクセス制御を強化するのに役立つセキュリティメカニズムです。有効にすると、BigLake は、汎用バケットアクセスを Compute Engine に渡すのではなく、クエリに必要な特定のファイルパスへのアクセス権のみを付与するように設計された、有効期間の短いスコープダウンされた認証情報を生成します。これにより、ユーザーがテーブルレベルのセキュリティポリシーを回避して、未加工のファイルを直接読み取ることを防ぐことができます。詳細については、認証情報ベンディングについてをご覧ください。

統合ガバナンス

統合ガバナンスを使用すると、Knowledge Catalog との統合を通じて、セキュリティとデータ管理のポリシーを一元的に定義して適用できます。詳細については、IAM とアクセス制御をご覧ください。

信頼性のコンセプト

信頼性機能は、データの復元力とカタログの可用性を提供します。

クロスリージョンレプリケーション

クロスリージョンレプリケーションは、複数のリージョンにメタデータを複製し、リージョン停止時のカタログの可用性を確保します。詳細については、マネージド障害復旧についてをご覧ください。

フェイルオーバー

フェイルオーバーは、リージョン停止中にプライマリリージョンとセカンダリリージョンを切り替えて、カタログオペレーションを維持するプロセスです。詳細については、マネージド障害復旧についてをご覧ください。