BigLake とは

BigLake は、 Google Cloud とオープンソース サービスを統合して、高度な分析と AI のための統合インターフェースを作成するストレージ エンジンです。Apache Iceberg を使用して、自動化されたデータ マネジメントと組み込みのガバナンスを備えた、オープンでマネージドされた高パフォーマンスのレイクハウスを構築するための基盤を提供します。

BigLake は、ストレージとコンピューティングを分離することで、Apache Spark、Apache Flink、Apache Hive、Trino、BigQuery などの Iceberg 互換エンジン全体で相互運用性を実現し、データの一貫したビューを確保します。

主なメリット

  • サーバーレス アーキテクチャ: BigLake では、サーバーやクラスタの管理が不要になるため、運用オーバーヘッドが削減され、需要に応じて自動的にスケーリングされます。
  • 統合されたデータ管理とガバナンス: Dataplex Universal Catalog との統合により、複数のエンジン間でガバナンス ポリシーを一元的に定義して適用し、セマンティック検索、データリネージ、品質チェックを行うことができます。
  • ストレージ拡張機能: BigLake は、Cloud Storage の管理機能を拡張して、Autoclass 階層化や顧客管理の暗号鍵(CMEK)などの機能を含めます。
  • フルマネージド エクスペリエンス: BigQuery と統合すると、BigLake は高スループットのストリーミングとリアルタイムのメタデータ管理を使用して、フルマネージドのストリーミング、分析、AI エクスペリエンスを提供します。
  • 高可用性と障害復旧: BigLake には、データの高可用性をサポートするクロスリージョン レプリケーションと障害復旧(プレビュー)のオプションがあります。

ユースケース

  • オープン レイクハウス: Cloud Storage をストレージ レイヤとして使用し、BigLake は Iceberg データの管理とガバナンスのインターフェースを提供します。
  • 分析とトランザクションの統合: AlloyDB for PostgreSQL(プレビュー版)内で BigLake Iceberg 分析テーブルに直接アクセスして、分析データとトランザクション ワークロードを組み合わせます。
  • 統合アクセス: さまざまなエンジン(Spark、Flink、BigQuery)が、一貫性のあるメタデータを使用して同じ Iceberg テーブルを操作できるようにします。

カタログ インターフェース

BigLake Metastore は、Cloud Storage と BigQuery の間でデータを接続するための 2 つの主要なカタログ インターフェースを提供します。詳細については、BigLake の仕組みをご覧ください。

  • Apache Iceberg REST カタログ: オープンソース エンジンやツールとの互換性を高めるための標準の REST インターフェースを提供します。これは、新しいワークロードに推奨されるインターフェースです。

    この Apache Iceberg REST カタログの使用を開始する方法については、クイックスタートの Iceberg REST カタログを使用して Spark と BigQuery で BigLake メタストアを使用するをご覧ください。

  • BigQuery 用のカスタム Apache Iceberg カタログ: Spark などのエンジンが BigQuery と相互運用できるようにします。このインターフェースは、既存のワークロードでサポートされています。

インターフェースとツール

BigLake リソースは、次のツールを使用して操作できます。

  • Google Cloud コンソール: コンソールを使用して、カタログの作成、カタログ プロパティの表示、監査ログの表示、権限の構成を行います。
  • BigQuery SQL: 標準 SQL DDL(データ定義言語)を使用して、BigLake Iceberg テーブルを作成および管理します。
  • オープンソース エンジン: Apache Spark、Apache Flink、Apache Hive などのエンジンを BigLake metastore とともに使用して、データの読み取りと書き込みを行います。
  • BigLake Metastore API: Iceberg REST カタログ仕様と互換性のある REST API を使用します。

次のステップ