As of April 20th, 2026, BigLake is now called Google Cloud Lakehouse. BigLake metastore is now called the Lakehouse runtime catalog. Lakehouse APIs, client libraries, CLI commands, and IAM names remain unchanged and still reference BigLake.

Google Cloud Lakehouse の仕組み

このページでは、Google Cloud Lakehouse の技術アーキテクチャについて説明し、クエリの処理方法の詳細と、Lakehouse ランタイムカタログ がエンジン間の相互運用性をどのようにサポートしているかについて説明します。

アーキテクチャ

Google Cloud Lakehouse の構築は、次の技術コンポーネントで構成されます。

ストレージ: Cloud Storage と BigQuery ストレージがストレージレイヤとして機能します。Cloud Storage での高性能で相互運用可能なストレージには、Apache Iceberg をオープンテーブル形式として使用することをおすすめします。
カタログ: Lakehouse ランタイムカタログは、メタデータを管理するための信頼できる唯一の情報源を提供します。Apache Iceberg REST カタログエンドポイント、Apache Hive エンドポイント、カタログ連携など、さまざまな互換性オプションを使用して、複数のエンジン間でメタデータの検出を一元化します。
クエリエンジン: BigQuery とオープンソースエンジン（Apache Spark、Apache Flink、Trino など）は、Lakehouse ランタイムカタログに接続することでシームレスに連携します。
ガバナンス: Knowledge Catalog は、レイクハウス全体で一元化されたセキュリティ、リネージ、ガバナンスポリシーを提供します。
データの書き込みと分析ツール: 統合されたエンジンとツールは、データの取り込みと分析に複数のパスを提供し、データサイエンティストとアナリストの両方に一貫したデータアクセスを保証します。

リソース階層

Google Cloud Lakehouse は、Apache Iceberg 標準と標準データベースのコンセプトに沿った階層を使用してデータを整理します。この構造により、Lakehouse ランタイムカタログは論理 ID を物理ストレージパスにマッピングできます。

Lakehouse ランタイムカタログ: メタデータをホストする最上位のリージョンサービスリソース Google Cloud 。
カタログ: ランタイムカタログサービス内の論理コンテナ。P.C.N.T の命名構造では、これはクエリを実行する特定のカタログインスタンスを表します。
名前空間: カタログ内のテーブルの論理グループ。BigQuery に慣れているユーザーにとって、名前空間は機能的にはデータセット に似ています。
テーブル: Cloud Storage 内のデータを指す特定のエンティティ。テーブルメタデータには、スキーマ、パーティショニング情報、Apache Iceberg metadata.json ファイルを介した現在のテーブル状態へのポインタが含まれています。

クエリ処理シーケンス

Google Cloud Lakehouse テーブルにクエリを送信すると、リクエストは特定のパスをたどって、ポリシーを適用し、データの処理前にメタデータを取得します。

送信: Apache Spark、Trino、BigQuery などの互換性のあるエンジンに SQL クエリを送信します。
メタデータリクエスト: エンジンは、テーブルとそのメタデータの場所を特定するために、Lakehouse ランタイムカタログからテーブルメタデータをリクエストします。
認可: カタログは、Identity and Access Management（IAM）ときめ細かいセキュリティポリシーに対してリクエストを検証します。
メタデータレスポンス: カタログはメタデータを返します。認証情報ベンダーが有効になっている場合は、安全なストレージアクセスに役立つ有効期間の短いトークンも提供します。
データ取得: エンジンはメタデータとオプションのトークンを使用して、Cloud Storage からデータファイルを直接読み取ります。
実行: エンジンはデータを処理して結果を返します。

Lakehouse ランタイムカタログ

Lakehouse ランタイムカタログは、Google Cloud Lakehouse 向けのフルマネージドサーバーレスメタデータサービスです。異なるシステム間でメタデータの信頼できる唯一の情報源を提供し、BigQuery やさまざまなオープンソースのデータ処理エンジンからアクセスできます。これにより、検出が一元化され、異なるリポジトリ間でメタデータを同期する必要がなくなります。

Lakehouse ランタイムカタログは Knowledge Catalog と統合され、サポートされているすべてのエンジンで統一されたきめ細かいアクセス制御を提供します。この統合により、データリネージ、品質モニタリング、検出可能性など、完全なデータガバナンスが可能になります。

テーブルタイプ

Google Cloud Lakehouse を使用して構築する場合は、テーブルの管理方法と形式を選択できます。

推奨

Lakehouse Iceberg REST カタログテーブル: オープンソースエンジンから作成され、Cloud Storage に保存される Apache Iceberg テーブル。これらは、Lakehouse ランタイムカタログ REST エンドポイントを介してオープンな互換性と管理を提供します。

BigQuery テーブルのタイプ

Apache Iceberg テーブル: BigQuery によって作成および管理される Apache Iceberg テーブル。これらのテーブルのメタデータは BigQuery カタログに保存され、テーブルデータと物理メタデータは Cloud Storage に保存されます。
ネイティブテーブル: BigQuery によってフルマネージドされるテーブル。Lakehouse ランタイムカタログに接続して、オープンソースエンジンとの相互運用を可能にできます。
外部テーブル: Lakehouse ランタイムカタログの外部にあるテーブル。データとメタデータは自己管理されます。これらは、Cloud Storage、Amazon S3、Azure Blob Storage に保存されているデータの接続を介してアクセス権の委任をサポートします。

これらのオプションの詳細な比較については、テーブルの概要をご覧ください。

次のステップ

Apache Spark、 BigQuery、 Apache Iceberg REST カタログエンドポイントで Lakehouse ランタイムカタログを使用する。

Google Cloud Lakehouse の仕組み コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。