Google Cloud Lakehouse とは

Google Cloud Lakehouse は、オープン データ レイクハウスの構築用に設計された高性能ストレージ エンジンです。Apache Iceberg オープン テーブル形式をGoogle Cloudのフルマネージドのエンタープライズ グレードのストレージと統合することで、高度な分析と AI のための統合インターフェースを提供します。

Google Cloud Lakehouse は、ストレージとコンピューティングを分離することで、分析システムとトランザクション システム間のシームレスな相互運用性を確保します。このアーキテクチャにより、Apache Spark、Apache Flink、Apache Hive、Trino、BigQuery などの複数のエンジンが信頼できる単一の情報源にアクセスできるようになり、データの重複が解消され、一貫性のある分析情報が確保されます。

主なメリット

  • サーバーレス アーキテクチャ: Google Cloud Lakehouse では、サーバーやクラスタの管理が不要になるため、運用上のオーバーヘッドが削減され、需要に応じて自動的にスケーリングされます。
  • 統合されたデータ マネジメントとガバナンス: Knowledge Catalog との統合により、複数のエンジン間でガバナンス ポリシーを一元的に定義して適用し、セマンティック検索、データリネージ、品質チェックを行うことができます。
  • ストレージ拡張機能: Google Cloud Lakehouse は、Cloud Storage の管理機能を拡張し、Autoclass 階層化や顧客管理の暗号鍵(CMEK)などの機能を追加します。
  • フルマネージド エクスペリエンス: BigQuery と統合すると、Google Cloud Lakehouse は高スループットのストリーミングとリアルタイムのメタデータ管理を使用して、フルマネージドのストリーミング、分析、AI エクスペリエンスを提供します。
  • 高可用性と障害復旧: Google Cloud Lakehouse は、データの高可用性をサポートするために、クロスリージョン レプリケーションと障害復旧(プレビュー)のオプションを提供します。

ユースケース

  • オープン レイクハウス: Cloud Storage をストレージ レイヤとして使用し、Google Cloud Lakehouse は Apache Iceberg データの管理とガバナンスのインターフェースを提供します。
  • 分析とトランザクションの統合: AlloyDB for PostgreSQL(プレビュー)内で分析 Apache Iceberg テーブルに直接アクセスして、分析データとトランザクション ワークロードを組み合わせます。
  • 統合アクセス: 異なるエンジン(Apache Spark、Apache Flink、BigQuery)が、一貫性のあるメタデータを使用して同じ Apache Iceberg テーブルとやり取りできるようにします。
  • クラウド間の分析と AI: クロスクラウド レイクハウス(プレビュー)を使用して、データ移行を必要とせずに、 Google Cloud から他のクラウド プロバイダのデータを直接クエリします。
  • 一般公開データセットの探索: インフラストラクチャを管理することなく、Apache Iceberg REST カタログ エンドポイントを使用して高品質の一般公開データセットを簡単にクエリできます。

カタログ インターフェース

レイクハウス ランタイム カタログは、Cloud Storage と BigQuery の間でデータを接続するための複数のインターフェース(エンドポイント)を提供する単一のメタデータ サービスです。詳細については、Google Cloud Lakehouse の仕組みをご覧ください。

  • Apache Iceberg REST カタログ エンドポイント: Apache Spark、Apache Flink、Trino などのオープンソース エンジンとの幅広い互換性を実現する標準の REST インターフェースを提供します。これは、新しいワークロードに推奨されるインターフェースであり、完全な R/W 相互運用性を提供します。

  • BigQuery エンドポイント用のカスタム Apache Iceberg カタログ: エンジンが BigQuery カタログと直接相互運用できるようにします。このインターフェースは、主に BigQuery マネージド Apache Iceberg テーブルと、Google Cloud Lakehouse アーキテクチャに移行する既存のワークロードに使用されます。

インターフェースとツール

Google Cloud Lakehouse リソースは、次のツールを使用して操作できます。

  • Google Cloud コンソール: コンソールを使用して、カタログの作成、カタログ プロパティの表示、監査ログの表示、権限の構成を行います。
  • BigQuery SQL: 標準 SQL DDL(データ定義言語)を使用して、Lakehouse ランタイム カタログと統合された Apache Iceberg テーブルと外部テーブルを作成および管理します。
  • オープンソース エンジン: Lakehouse ランタイム カタログで Apache Spark、Apache Flink、Apache Hive などのエンジンを使用して、データの読み取りと書き込みを行います。
  • レイクハウス ランタイム カタログ API: Apache Iceberg REST カタログ エンドポイントを使用して、オープン Apache Iceberg REST 仕様と互換性のあるツールを使用してサービスを操作します。

次のステップ