このドキュメントでは、BigLake の主な用語とコンセプトについて説明します。
このページは、機能の完全なリストではなく、BigLake ドキュメント全体で使用される用語とコンセプトの一般的なリファレンスです。
基本概念
次のコンセプトは、BigLake アーキテクチャの基盤を形成します。
データ レイクハウス
データ レイクハウスは、データレイクの費用対効果と柔軟性と、データ ウェアハウスのデータ管理とパフォーマンス構造を組み合わせたデータ アーキテクチャです。BigLake を使用すると、Cloud Storage にオープン フォーマットでデータを保持しながら、きめ細かいセキュリティや高性能なクエリなどの BigQuery の機能を使用できるため、レイクハウス アーキテクチャを実現できます。
オープンな相互運用性
オープンな相互運用性とは、BigQuery、Spark、Flink などの複数の分析システムとトランザクション システムが、Apache Iceberg などのオープン フォーマットのデータの単一コピーで動作できることです。これにより、データの重複が不要になり、異なるツール間でデータの整合性が確保されます。
BigLake Metastore
BigLake metastore は、レイクハウスの信頼できる唯一の情報源として機能する、一元化されたサーバーレス メタデータ サービスです。これにより、Spark、Flink、BigQuery などの複数のエンジンが同じテーブルを同時に検出してクエリできます。
カタログの種類
BigLake metastore には、メタデータの管理に使用できる 2 種類のカタログがあります。カタログの選択は、データとのやり取りに影響する基本的な決定です。
Iceberg REST カタログ
これは、Apache Iceberg REST カタログ仕様に基づくカタログです。オープンソース エンジンと BigQuery 間の相互運用性を提供し、認証情報のベンダーや障害復旧などの機能をサポートします。
BigQuery 用のカスタム Iceberg カタログ
これは、BigQuery をバッキング メタストアとして直接使用する統合です。
テーブルの形式
BigLake は、データの管理に使用されるエンジンに応じて、複数のテーブル形式をサポートしています。
BigQuery の BigLake Iceberg テーブル
これらは、BigQuery から作成して Cloud Storage に保存する Iceberg テーブルです。BigQuery は、すべてのデータ レイアウトと最適化を処理します。これらのテーブルは複数のエンジンで読み取ることができますが、BigQuery はこれらのテーブルに直接書き込むことができる唯一のエンジンです。
BigLake Iceberg テーブル
これらは、オープンソース エンジンから作成され、Cloud Storage に保存されている Iceberg テーブルです。BigLake Metastore は中央カタログとして機能します。テーブルを作成したオープンソース エンジンのみが、テーブルに書き込むことができます。
標準の BigQuery テーブル
これらのテーブルは BigQuery によって管理され、BigQuery ストレージにデータを保存します。これらのテーブルは BigLake metastore に接続できます。
外部テーブル
外部テーブルは BigLake メタストアの外部に存在します。データとメタデータは、サードパーティ カタログでセルフマネージドされます。BigQuery はこれらのテーブルから読み取るだけです。
表の機能
BigLake には、データ マネジメントを簡素化し、Iceberg テーブルのクエリ パフォーマンスを向上させる機能がいくつか用意されています。
テーブルの進化
BigLake は Iceberg テーブルの進化をサポートしています。これにより、テーブルデータを書き換えたり、テーブルを再作成したりすることなく、テーブルのスキーマやパーティション仕様を時間の経過とともに変更できます。
タイムトラベル
タイムトラベルを使用すると、特定の時点またはスナップショット ID のテーブルのデータをクエリできます。これは、監査、テストの再現、誤って削除した後のデータの復元に役立ちます。
メタデータのキャッシュ保存
メタデータのキャッシュ保存は、BigLake 外部テーブルのクエリ パフォーマンスを高速化する機能です。テーブルのメタデータのコピーを BigQuery ストレージに保存するため、クエリの実行中に Cloud Storage からメタデータ ファイルを読み取る必要がなくなります。
自動テーブル メンテナンス
自動テーブル メンテナンスにより、マネージド テーブルの圧縮やガベージ コレクションなどのタスクが自動化され、レイクハウスの管理が簡素化されます。これにより、手動で介入することなく、最適なクエリ パフォーマンスとストレージ効率が確保されます。
相互運用性のコンセプト
相互運用性により、 Google Cloud とオープンソース システム間でデータにアクセスできます。
カタログ フェデレーション
カタログ フェデレーションは、カスタム Iceberg カタログで作成されたテーブルなど、BigQuery に表示されるテーブルを管理してクエリできる Iceberg REST カタログの機能です。
P.C.N.T の命名規則
P.C.N.T 命名構造は、BigQuery から BigLake Metastore のテーブルを一意に識別してクエリするために使用される 4 部構成の規則です。Project.Catalog.Namespace.Table を表します。
- プロジェクト: Google Cloud プロジェクト ID
- カタログ: BigLake メタストア カタログの名前
- Namespace: テーブルの論理グループ(データセットに類似)
- Table: データテーブルの名前
セキュリティ コンセプト
セキュリティ機能は、アクセス管理とデータ保護のメカニズムを提供します。
接続
接続は、外部データにアクセスするための認証情報を保存する BigQuery リソースです。BigLake では、接続のサービス アカウントがユーザーに代わってストレージ バケットにアクセスできるようにすることで、接続が Cloud Storage へのアクセスを委任します。
認証情報の販売
認証情報のベンディングは、Iceberg REST カタログを使用する際にアクセス制御を強化するのに役立つセキュリティ メカニズムです。有効にすると、BigLake は、汎用バケット アクセスを Compute Engine に渡すのではなく、クエリに必要な特定のファイルパスへのアクセス権のみを付与するように設計された、有効期間の短いスコープダウンされた認証情報を生成します。これにより、ユーザーがテーブルレベルのセキュリティ ポリシーを回避して、未加工のファイルを直接読み取ることを防ぐことができます。
統合ガバナンス
統合ガバナンスを使用すると、Dataplex Universal Catalog との統合により、セキュリティ ポリシーとデータ管理ポリシーを一元的に定義して適用できます。
信頼性のコンセプト
信頼性機能は、データの復元力とカタログの可用性を提供します。
クロスリージョン レプリケーション
クロスリージョン レプリケーションは、複数のリージョンにメタデータを複製し、リージョン停止時のカタログの可用性を確保します。
フェイルオーバー
フェイルオーバーは、リージョン停止中にプライマリ リージョンとセカンダリ リージョンを切り替えて、カタログ オペレーションを維持するプロセスです。