2026 年 4 月 20 日より、BigLake は Lakehouse for Apache Iceberg に名称変更されました。BigLake metastore は、Lakehouse ランタイムカタログと呼ばれるようになりました。Lakehouse API、クライアントライブラリ、CLI コマンド、IAM 名は変更されず、引き続き BigLake を参照します。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Lakehouse for Apache Iceberg とは

Lakehouse for Apache Iceberg は、オープンデータレイクハウスの構築用に設計された高性能ストレージエンジンです。Apache Iceberg のオープンテーブルフォーマットをのフルマネージドエンタープライズグレードのストレージと統合することで、高度な分析と AI のための統合インターフェースを提供します。 Google Cloud

オープンテーブルのメタデータを管理するために、Lakehouse for Apache Iceberg は Lakehouse ランタイムカタログを使用します。このフルマネージドのサーバーレスメタデータサービスは、異なるシステム間で信頼できる唯一の情報源を提供し、検出を一元化して、異なるリポジトリ間でメタデータを同期する必要をなくします。

Google Cloud の Lakehouse は、ストレージとコンピューティングを分離することで、分析システムとトランザクションシステム間のシームレスな相互運用性を実現します。このアーキテクチャにより、Apache Spark、Apache Flink、Apache Hive、Trino、BigQuery などの複数のエンジンが信頼できる唯一の情報源にアクセスできるようになり、データの重複を排除して、一貫した分析情報を確保できます。

主なメリット

サーバーレスアーキテクチャ: Google Cloud の Lakehouse では、サーバーやクラスタの管理が不要になり、運用オーバーヘッドが削減され、需要に応じて自動的にスケーリングされます。コンピューティングワークロードの場合、サーバーレスバッチとインタラクティブセッションにより、ジョブ間のリソース競合が解消され、インフラストラクチャのメンテナンスが自動化されます。
統合されたデータ管理とガバナンス: Knowledge Catalog との統合により、複数のエンジン間でガバナンスポリシーの一元的な定義と適用が保証され、セマンティック検索、データリネージ、品質チェックが可能になります。
ストレージ拡張機能: Google Cloud の Lakehouse は、Cloud Storage の管理機能を拡張し、Autoclass 階層化や顧客管理の暗号鍵（CMEK）などの機能を追加します。
フルマネージドエクスペリエンス: BigQuery と統合すると、Google Cloud の Lakehouse はフルマネージドの分析と AI のエクスペリエンスを提供します。
高可用性と障害復旧: Google Cloud's Lakehouse は、データの高可用性をサポートするために、リージョン間レプリケーションと障害復旧（プレビュー）のオプションを提供します。

ユースケース

オープンレイクハウス: Cloud Storage をストレージレイヤとして使用します。Google Cloud の Lakehouse は、Apache Iceberg データの管理とガバナンスのインターフェースを提供します。
分析とトランザクションの統合: 分析用の Apache Iceberg テーブルに AlloyDB for PostgreSQL （プレビュー）内から直接アクセスして、分析データとトランザクションワークロードを組み合わせます。
統合アクセス: さまざまなエンジン（Apache Spark、Apache Flink、BigQuery）が、一貫したメタデータを使用して同じ Apache Iceberg テーブルとやり取りできるようにします。
クロスクラウド分析と AI: クロスクラウド Lakehouse（プレビュー）を使用して、他のクラウドプロバイダのメタデータを同期します。これにより、データを移行することなく、 Apache Iceberg REST カタログエンドポイントを介して BigQuery または外部のオープンソースエンジンでデータをクエリできます。
一般公開データセットの探索: インフラストラクチャを管理せずに、Apache Iceberg REST カタログエンドポイントを使用して高品質の一般公開データセットを簡単にクエリできます。
Hive Metastore: Hive カタログ（プレビュー）を使用して、Apache Spark や Apache Hive などのオープンソースエンジンを Lakehouse ランタイムカタログに接続します。これにより、セルフホスト型 Hive Metastore（HMS）の維持に伴う運用オーバーヘッドが解消され、BigQuery でのシームレスなデータ共有と直接テーブルクエリが可能になります。

インターフェースとツール

Google Cloud の Lakehouse リソースは、次のツールを使用して操作できます。

Google Cloud **コンソール**: コンソールを使用して、カタログの作成、カタログプロパティの表示、監査ログの表示、権限の構成を行います。
BigQuery SQL: 標準 SQL DDL（データ定義言語）を使用して、Lakehouse ランタイムカタログと統合された Apache Iceberg テーブルと外部テーブルを作成して管理します。
オープンソースエンジン: Lakehouse ランタイムカタログで Apache Spark、Apache Flink、Apache Hive などのエンジンを使用して、データの読み取りと書き込みを行います。
IDE とノートブック: 対話型の Apache Spark ノートブックと IDE 拡張機能（VS Code 用の Data Agent Kit（DAK）拡張機能など）を使用して、Google Cloud に対する認証、コードの対話的な作成、開発環境内でのノートブックセッションの直接管理を行います。
オーケストレーションツールと MLOps ツール: Managed Service for Apache Airflow（旧 Cloud Composer）と Vertex AI の Kubeflow Pipelines を使用して、サーバーレスバッチパイプラインとカタログオペレーションをオーケストレーションワークフローと統合します。
Lakehouse ランタイムカタログ API: Apache Iceberg REST カタログエンドポイントを使用して、オープン Apache Iceberg REST 仕様と互換性のあるツールでサービスを操作します。
Apache Iceberg テーブルのサポート: Apache Iceberg V2 テーブル（一般提供）と V3 テーブル（プレビュー）がサポートされています。Iceberg V1 テーブルはサポートされていません。

次のステップ

Google Cloud の Lakehouse のアーキテクチャについて理解する。

Lakehouse for Apache Iceberg とは コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

主なメリット

ユースケース

インターフェースとツール

次のステップ

Lakehouse for Apache Iceberg とは