Lakehouse for Apache Iceberg とは

Lakehouse for Apache Iceberg は、オープンデータ レイクハウスの構築用に設計された高パフォーマンスのストレージ エンジンです。Apache Iceberg オープン テーブル フォーマットを フルマネージド エンタープライズ グレードのストレージと統合することで、 Google Cloud高度な分析と AI のための統合インターフェースを提供します。

オープン テーブル メタデータを管理するために、Lakehouse for Apache Iceberg は Lakehouse ランタイム カタログを使用します。このフルマネージドのサーバーレス メタデータ サービスは、異なるシステム間で単一の信頼できる情報源を提供し、検出を一元化して、異なるリポジトリ間でメタデータを同期する必要をなくします。

Google Cloud の Lakehouse は、ストレージとコンピューティングを分離することで、分析システムとトランザクション システム間のシームレスな相互運用性を実現します。 このアーキテクチャにより、Apache Spark、Apache Flink、Apache Hive、Trino、BigQuery などの複数のエンジンが単一の信頼できる情報源にアクセスできるため、データの重複が解消され、一貫した分析情報が保証されます。

主な特典

  • サーバーレス アーキテクチャ: Google Cloud の Lakehouse では、サーバーやクラスタの管理が不要になり、運用オーバーヘッドが削減され、需要に応じて自動的にスケーリングされます。コンピューティング ワークロードの場合、サーバーレス バッチとインタラクティブ セッションにより、ジョブ間のリソース競合が解消され、インフラストラクチャのメンテナンスが自動化されます。
  • 統合されたデータ管理とガバナンス: Knowledge Catalog との統合により、複数の エンジン間でガバナンス ポリシーの一元的な定義と適用が保証され、セマンティック検索、データリネージ、品質チェックが可能になります。
  • ストレージ拡張機能: Google Cloud の Lakehouse は、Cloud Storage の管理機能を拡張し、Autoclass 階層化や顧客管理の暗号鍵(CMEK)などの機能を追加します。
  • フルマネージド エクスペリエンス: BigQuery と統合すると、Google Cloud の Lakehouse は高スループットのストリーミングとリアルタイムのメタデータ管理を使用して、フルマネージドのストリーミング、分析、AI エクスペリエンスを提供します。
  • 高可用性と障害復旧: Google Cloud's Lakehouse は、リージョン間レプリケーションと 障害復旧 (プレビュー)のオプションを提供し、データの高 可用性をサポートします。

ユースケース

  • オープン レイクハウス: Cloud Storage をストレージ レイヤとして使用します。Google Cloud の Lakehouse は、Apache Iceberg データの管理とガバナンスのインターフェースを提供します。
  • 分析とトランザクションの統合: AlloyDB for PostgreSQL (プレビュー) 内で分析用の Apache Iceberg テーブルに直接アクセスして、分析データとトランザクション ワークロードを組み合わせます。
  • 統合アクセス: さまざまなエンジン(Apache Spark、Apache Flink、BigQuery)が、一貫したメタデータを使用して同じ Apache Iceberg テーブルとやり取りできるようにします。
  • クロスクラウド分析と AI: クロスクラウド Lakehouse (プレビュー) を使用して、他のクラウド プロバイダの メタデータを同期します。これにより、データを移行することなく、 Apache Iceberg REST カタログ エンドポイントを介して BigQuery または外部のオープンソース エンジンでデータをクエリできます。
  • 一般公開データセットの探索: インフラストラクチャを管理せずに、Apache Iceberg REST カタログ エンドポイントを使用して高品質の一般公開データセットを簡単にクエリできます。
  • Hive Metastore Hive カタログ (プレビュー) を使用して、Apache Spark や Apache Hive などのオープンソース エンジンを Lakehouse ランタイム カタログに接続します。これにより、セルフホスト型の Hive Metastore(HMS)を維持する運用オーバーヘッドが不要になり、BigQuery でのシームレスなデータ共有と直接テーブル クエリが可能になります。

インターフェースとツール

Google Cloud の Lakehouse リソースは、次のツールを使用して操作できます。

  • Google Cloud **コンソール**: コンソールを使用して、カタログの作成、カタログ プロパティの表示、監査ログの表示、権限の構成を行います。
  • BigQuery SQL: 標準 SQL DDL(データ定義言語)を使用して、Lakehouse ランタイム カタログと統合された Apache Iceberg テーブルと外部テーブルを作成、管理します。
  • オープンソース エンジン: Lakehouse ランタイム カタログで Apache Spark、Apache Flink、Apache Hive などのエンジンを使用して、データの読み取りと書き込みを行います。
  • IDE とノートブック: 対話型の Apache Spark ノートブックと IDE 拡張機能(VS Code 用の Data Agent Kit(DAK)拡張機能など)を使用して、Google Cloud に対する認証、コードの対話的な作成、開発環境内でのノートブック セッションの直接管理を行います。
  • オーケストレーション ツールと MLOps ツール: Managed Service for Apache Airflow(旧 Cloud Composer)と Vertex AI の Kubeflow Pipelines を使用して、サーバーレス バッチ パイプラインとカタログ オペレーションをオーケストレーション ワークフローと統合します。
  • Lakehouse ランタイム カタログ API: Apache Iceberg REST カタログ エンドポイントを使用して、オープン Apache Iceberg REST 仕様と互換性のあるツールでサービスを操作します。
  • Apache Iceberg テーブルのサポート: Apache Iceberg V2 テーブルのみがサポートされています。Iceberg V1 テーブルは対象外です。既存の Iceberg V1 テーブルがある場合は、Lakehouse for Apache Iceberg で使用する前に、V2 にアップグレードする必要があります(ALTER TABLE catalog.schema.table SET TBLPROPERTIES ('format-version'='2'); を実行するか、同様のエンジン オペレーションを使用します)。

次のステップ