Google Cloud Lakehouse とは

Google Cloud Lakehouse は、オープンデータ レイクハウスの構築用に設計された高性能ストレージ エンジンです。Apache Iceberg オープン テーブル フォーマットを Google Cloudのフルマネージド エンタープライズ グレードのストレージと統合することで、高度な 分析と AI のための統合インターフェースを提供します。

Google Cloud Lakehouse は、ストレージとコンピューティングを分離することで、分析システムとトランザクション システム間のシームレスな相互運用性を実現します。このアーキテクチャにより、Apache Spark、Apache Flink、Apache Hive、Trino、BigQuery などの複数のエンジンが単一の信頼できる情報源にアクセスできるため、データの重複が解消され、一貫した分析情報が保証されます。

主な特典

  • サーバーレス アーキテクチャ: Google Cloud Lakehouse では、サーバーやクラスタの管理が不要になるため、運用オーバーヘッドが削減され、需要に応じて自動的にスケーリングされます。
  • 統合されたデータ管理とガバナンス: Knowledge Catalog との統合により、複数の エンジン間でガバナンス ポリシーを一元的に定義して適用できます。また、セマンティック検索、データリネージ、品質チェックも可能です。
  • ストレージ拡張機能: Google Cloud Lakehouse は、Cloud Storage の管理機能を拡張し、Autoclass 階層化や顧客管理の暗号鍵(CMEK)などの機能を追加します。
  • フルマネージド エクスペリエンス: BigQuery と統合すると、Google Cloud Lakehouse は高スループットのストリーミングとリアルタイムのメタデータ管理を使用して、フルマネージドのストリーミング、分析、AI エクスペリエンスを提供します。
  • 高可用性と障害復旧: Google Cloud Lakehouse には、データの高可用性をサポートするリージョン間レプリケーションと障害復旧(プレビュー)のオプションが用意されています。

ユースケース

  • オープン レイクハウス: Cloud Storage をストレージ レイヤとして使用します。Google Cloud Lakehouse は、Apache Iceberg データの管理とガバナンスのインターフェースを提供します。
  • 分析とトランザクションの統合: 分析用の Apache Iceberg テーブルに AlloyDB for PostgreSQL (プレビュー)内から直接アクセスして、 分析データとトランザクション ワークロードを組み合わせます。
  • 統合アクセス: さまざまなエンジン(Apache Spark、Apache Flink、BigQuery)が、一貫したメタデータを使用して同じ Apache Iceberg テーブルを操作できるようにします。

カタログ インターフェース

Lakehouse ランタイム カタログ は、Cloud Storage と BigQuery の間でデータを接続するための複数のインターフェース(エンドポイント)を提供する単一のメタデータ サービスです。詳細については、Google Cloud Lakehouse の仕組みをご覧ください。

  • Apache Iceberg REST カタログ エンドポイント: Apache Spark、Apache Flink、Trino などのオープンソース エンジンとの幅広い互換性を実現する標準の REST インターフェース を提供します。これは新しいワークロードに推奨されるインターフェースで、完全な R/W 相互運用性を提供します。

  • BigQuery エンドポイント用のカスタム Apache Iceberg カタログ: エンジンが BigQuery カタログと直接相互運用できるようにします。このインターフェースは、主に BigQuery マネージド Apache Iceberg テーブルと、Google Cloud Lakehouse アーキテクチャに移行する既存のワークロードに使用されます。

インターフェースとツール

Google Cloud Lakehouse リソースは、次のツールを使用して操作できます。

  • Google Cloud ** コンソール**: コンソールを使用して、カタログの作成、カタログ プロパティの表示、監査ログの表示、権限の構成を行います。
  • BigQuery SQL: 標準 SQL DDL(データ定義言語)を使用して、Lakehouse ランタイム カタログと統合された Apache Iceberg テーブルと外部テーブルを作成して管理します。
  • オープンソース エンジン: Lakehouse ランタイム カタログで Apache Spark、Apache Flink、Apache Hive などのエンジンを使用して、データの読み取りと書き込みを行います。
  • Lakehouse ランタイム カタログ API: Apache Iceberg REST カタログ エンドポイントを使用して、オープン Apache Iceberg REST 仕様と互換性のあるツールを使用してサービスを操作します。

次のステップ