Lakehouse for Apache Iceberg は複数のテーブルタイプをサポートしており、 でのレイクハウスに対してさまざまなレベルの管理、パフォーマンス、相互運用性を提供します。 Google Cloudデータの発生元、書き込みエンジンの要件、制御のニーズに応じて、 Lakehouse ランタイム カタログまたは BigQuery でサポートされているテーブル形式を選択できます。
カタログとエンジン別のテーブル形式
サポートされているテーブル形式、メタストア構成、ストレージ最適化機能、エンジンの相互運用性については、以下のカタログまたはエンジンを選択してください。
Iceberg REST カタログ
Lakehouse ランタイム カタログは、Iceberg REST カタログ エンドポイントを介して Apache Iceberg テーブルを管理し、Apache Spark、Apache Flink、Trino などのオープンソース エンジンとの幅広い互換性を実現する標準の REST インターフェースを提供します。これらのテーブルは、オープンソース エンジンから作成して Cloud Storage に保存します。ETL ワークフローをオープンソース エンジンで管理し、BigQuery からの読み取りアクセスのみが必要な場合は、このオプションが最適です。
主な特長は以下のとおりです。
- Metastore: Lakehouse ランタイム カタログ。
- ストレージ: Cloud Storage。
- ストレージ最適化: お客様または第三者によって管理されます。
- 読み取り / 書き込みアクセス:
- オープンソース エンジン: 読み取りと書き込み。
- BigQuery: 読み取り専用。
- ユースケース: 高度な分析、ストリーミング、AI 向けの高性能なエンタープライズ グレードのストレージ を備えたオープン レイクハウス。
Hive メタストア
Lakehouse ランタイム カタログは、Apache Spark ExternalCatalog の互換性に最適化された Apache Hive メタストア(HMS)エンドポイントを介して Apache Hive テーブルを管理し、Apache Spark、Apache Hive、BigQuery 間でデータをシームレスに共有できるようにします。これらのテーブルは、オープンソース エンジンから作成して Cloud Storage に保存します。ETL ワークフローをオープンソース エンジンで管理し、個別のセルフホスト Hive メタストアを必要とせず、BigQuery からの読み取りアクセスのみが必要な場合は、このオプションが最適です。
主な特長は以下のとおりです。
- Metastore: Lakehouse ランタイム カタログ(カスタム
IMetastoreClient経由)。 - ストレージ: Cloud Storage(Parquet、ORC、 Avro などの形式をサポート)。
- ストレージ最適化: お客様または第三者によって管理されます。
- 読み取り / 書き込みアクセス:
- オープンソース エンジン(Spark と Hive): 読み取りと書き込み。
- BigQuery: 読み取り専用。
- ユースケース: 既存の Spark ワークロードと Hive ワークロードをフル マネージド サーバーレス メタストアに移行する Google Cloud。
BigQuery
BigQuery は、Apache Iceberg テーブル、ネイティブ テーブル、外部テーブルをサポートしています。
Apache Iceberg テーブル: これらは、BigQuery から作成 して管理し、Cloud Storage に保存する Apache Iceberg テーブルです。 オープンソース エンジンで読み取ることはできますが、メタデータを管理して書き込むエンジンは BigQuery です。ワークフローを BigQuery で完全に管理する場合は、このオプションが最適です。
ネイティブ テーブル: これらはネイティブ BigQuery テーブルです。フルマネージドで、最先端の分析機能と管理機能が備わっています。 このオプションは、Iceberg 以外のワークロードに最適です。
外部テーブル: これらのテーブルは、Cloud Storage、Amazon S3、Azure Blob Storage に保存されたデータ用の BigQuery 固有の 構造です。データとメタデータはセルフマネージドで、BigQuery は読み取りアクセス権のみを持ちます。サードパーティ カタログまたはストレージで直接管理するデータには、このオプションを選択します。
テーブルタイプを比較する
次の表を使用して、Lakehouse ランタイム カタログと BigQuery のテーブルタイプを比較します。
Lakehouse
| Apache Iceberg(GA) | Apache Hive(プレビュー) | |
|---|---|---|
| Metastore | Lakehouse ランタイム カタログ | Lakehouse ランタイム カタログ |
| ストレージ | Cloud Storage | Cloud Storage |
| ストレージ最適化 | お客様または第三者による管理 | お客様または第三者による管理 |
| 読み取り / 書き込み |
オープンソース エンジン(読み取り/書き込み) BigQuery(読み取り専用) |
オープンソース エンジン(読み取り/書き込み) BigQuery(読み取り専用) |
| 高度なオペレーション | なし | なし |
| ユースケース | オープン レイクハウス | 既存の Spark ワークロードと Hive ワークロードをフルマネージド サーバーレス メタストアに移行する |
BigQuery
| BigQuery 管理の Iceberg | 外部テーブル | 標準テーブル | |
|---|---|---|---|
| Metastore | BigQuery | 外部またはセルフホストのメタストア | BigQuery |
| ストレージ | Cloud Storage | Cloud Storage / Amazon S3 / Azure | BigQuery |
| ストレージ最適化 | Google が管理 | お客様または第三者による管理 | Google が管理 |
| 読み取り / 書き込み |
オープンソース エンジン(Iceberg
ライブラリでの読み取り専用、BigQuery Storage API との読み取り/書き込みの相互運用性)
BigQuery(読み取り/書き込み) |
オープンソース エンジン(読み取り/書き込み) BigQuery(読み取り専用) |
オープンソース エンジン(
BigQuery Storage API との読み取り/書き込みの相互運用性) BigQuery(読み取り/書き込み) |
| 高度なオペレーション | BigQuery Storage Write API、変更データ キャプチャ(CDC)、複数ステートメント トランザクションによる高スループット ストリーミング | なし | BigQuery Storage Write API、変更データ キャプチャ(CDC)、複数ステートメント トランザクションによる高スループット ストリーミング |
| ユースケース | 高度な分析、ストリーミング、AI 向けの高性能なエンタープライズ グレードのストレージを備えたオープン レイクハウス | BigQuery ロード用のステージング テーブル、レガシー クエリ専用テーブル | 高度な分析、ストリーミング、AI 向けのエンタープライズ グレードのストレージ |
次のステップ
Apache Iceberg テーブルを管理する方法を学習する。
Dataflow を使用して外部 Iceberg テーブルをインポートする方法を学習する。
BigQuery でカタログ連携を使用する方法を学習する。